2023 年 6月随笔档案 - _泡泡

Spark使用Python开发和RDD

摘要：# 使用PySpark ## 配置python环境在所有节点上按照python3，版本必须是python3.6及以上版本 ```Shell yum install -y python3 ``` 修改所有节点的环境变量 ```Shell export JAVA_HOME=/usr/local/jdk 阅读全文

posted @ 2023-06-29 21:06 _泡泡阅读(63) 评论(0) 推荐(0) 编辑

Spark编程基础

摘要：# Scala编写Spark的WorkCount ## 创建一个Maven项目在pom.xml中添加依赖和插件 ```XML 8 8 UTF-8 3.2.3 2.12.15 org.scala-lang scala-library ${scala.version} org.apache.spark 阅读全文

posted @ 2023-06-28 20:43 _泡泡阅读(57) 评论(0) 推荐(0) 编辑

Spark环境搭建及Spark shell

摘要：# StandAlone模式环境搭建环境准备：三台Linux，一个安装Master，其他两台机器安装Worker ![image](https://img2023.cnblogs.com/blog/1742816/202306/1742816-20230627212426287-907092698 阅读全文

posted @ 2023-06-27 21:37 _泡泡阅读(151) 评论(0) 推荐(0) 编辑

Spark架构体系

摘要：# Spark架构体系 StandAlone模式是spark自带的集群运行模式，不依赖其他的资源调度框架，部署起来简单。 StandAlone模式又分为client模式和cluster模式，本质区别是Driver运行在哪里，如果Driver运行在SparkSubmit进程中就是Client模式，如果阅读全文

posted @ 2023-06-26 19:34 _泡泡阅读(58) 评论(0) 推荐(0) 编辑

Spark简介

摘要：# Spark Spark是一种快速、通用、可扩展的大数据分析引擎，2009年诞生于加州大学伯克利分校AMPLab，2010年开源，2013年6月成为Apache孵化项目，2014年2月成为Apache的顶级项目，2014年5月发布spark1.0，2016年7月发布spark2.0，2020年6月阅读全文

posted @ 2023-06-25 23:17 _泡泡阅读(119) 评论(0) 推荐(0) 编辑

Scala练习题

摘要：# SQL join语法案例 Data: ```Plain Text order.txt order011,u001,300 order012,u002,200 order023,u006,100 order056,u007,300 order066,u003,500 order055,u004,3 阅读全文

posted @ 2023-06-24 19:22 _泡泡阅读(75) 评论(0) 推荐(1) 编辑

Scala练习

摘要：# wordCount ```Scala package com.doit.day03 import scala.io.{BufferedSource, Source} object WordCountDemo { def main(args: Array[String]): Unit = { // 阅读全文

posted @ 2023-06-23 21:18 _泡泡阅读(52) 评论(0) 推荐(0) 编辑

scala异常和IO

摘要：# 异常处理语法处理上和 Java 类似，但是又不尽相同。 ## java的异常处理 ```Scala public class ExceptionDemo { public static void main(String[] args) { try { int a = 10; int b = 0 阅读全文

posted @ 2023-06-22 21:23 _泡泡阅读(71) 评论(0) 推荐(0) 编辑

Scala泛型

摘要：# 泛型的定义 ```Scala object _11_泛型 { def main(args: Array[String]): Unit = { //[A] 这个代表的就是泛型 ==》在创建对象的时候，可以指定需要传进去的类型 //作用就是在创建对象的时候，可以对传进去的参数一个约束，当设置泛型位阅读全文

posted @ 2023-06-21 22:28 _泡泡阅读(57) 评论(0) 推荐(0) 编辑

Scala高阶语法

摘要：# 高阶函数 ## 函数可以作为参数进行传递和返回值进行返回 ```Scala //传一个a乘b 就返回一个函数，逻辑是实现两数相乘 //传一个a*b 返回一个函数，逻辑是实现两数相乘 //传一个axb 返回一个函数，逻辑是实现两数相乘 def funTest6(str:String,fun:(St 阅读全文

posted @ 2023-06-19 22:43 _泡泡阅读(94) 评论(0) 推荐(0) 编辑

Scala集合

摘要：# 集合 scala中的集合分为两种 ,可变集合和不可变集合, 不可变集合可以安全的并发的访问! 集合的类主要在一下两个包中 - 可变集合包 scala.collection.mutable - 不可变集合包 scala.collection.immutable 默认的 Scala 不可变集合，就是阅读全文

posted @ 2023-06-18 19:52 _泡泡阅读(103) 评论(0) 推荐(0) 编辑

Scala面向对象

摘要：# 类和对象 **组成结构** • 构造函数: 在创建对象的时候给属性赋值 • 成员变量: • 成员方法(函数) • 局部变量 • 代码块 ## 构造器每个类都有一个主构造器，这个构造器和类定义"交织"在一起类名后面的内容就是主构造器，如果参数列表为空的话，()可以省略 scala的类有且仅有一个阅读全文

posted @ 2023-06-17 16:33 _泡泡阅读(79) 评论(0) 推荐(0) 编辑

Scala方法和函数

摘要：- 方法和函数的作用几乎是一样的,但是函数在使用的过程中更加灵活和多样化 - scala中函数是头等公民 . 可以作为方法的返回值和参数使用 - scala是一个集面向对象和面向函数于一身的编程语言 , 灵活的函数是函数式编程的一种体现 - 函数的使用使代码更加简洁和灵活 # 函数 scala中一种阅读全文

posted @ 2023-06-16 21:07 _泡泡阅读(183) 评论(0) 推荐(0) 编辑

Scala基本语法

摘要：# scala的基本语法 ## 注释对于scala的注释，简而言之就是一句话，和java的注释一模一样基本语法 ``` （1）单行注释：// （2）多行注释：/* */ （3）文档注释：/** * */ ``` 代码示例： ```Scala package com.doitedu.demo01 阅读全文

posted @ 2023-06-15 20:30 _泡泡阅读(123) 评论(0) 推荐(0) 编辑

Scala简介和安装

摘要：# 简介 Scala是一种多范式的编程语言（多范式：多种编程方法的意思。有面向过程、面向对象、泛型、函数式四种程序设计方法），其设计的初衷是要集成面向对象编程和函数式编程的各种特性。Scala运行于Java平台（Java虚拟机），并兼容现有的Java程序 > 官网：https://www.scala 阅读全文

posted @ 2023-06-14 16:59 _泡泡阅读(196) 评论(0) 推荐(0) 编辑

Hbase中的region和rowkey

摘要：# region Region是HBase数据管理的基本单位,region有一点像关系型数据的分区。 Region中存储这用户的真实数据，而为了管理这些数据，HBase使用了RegionSever来管理region。 ## region的分配一个表中可以包含一个或多个Region。每个Regio 阅读全文

posted @ 2023-06-13 22:57 _泡泡阅读(708) 评论(0) 推荐(0) 编辑

Hbase的JavaAPI和数据存储

摘要：# 导入Maven依赖 ```XML org.apache.zookeeper zookeeper 3.4.6 org.apache.hbase hbase-client 2.2.5 org.apache.hadoop hadoop-client 3.2.1 org.apache.hadoop ha 阅读全文

posted @ 2023-06-12 19:06 _泡泡阅读(179) 评论(0) 推荐(0) 编辑

Hbase安装和shell客户端操作

摘要：# 简介 HBase 是一个**面向列式存储的分布式数据库**，其设计思想来源于 Google 的 BigTable 论文。 HBase 底层存储基于 HDFS 实现，集群的管理基于 ZooKeeper 实现。 HBase 良好的分布式架构设计为海量数据的快速存储、随机访问提供了可能，基于数据副本机阅读全文

posted @ 2023-06-11 19:51 _泡泡阅读(494) 评论(0) 推荐(0) 编辑

Kafka面试题

摘要：# kafka 都有哪些特点？高吞吐量，低延迟可以热扩展并发度高具有容错性(挂的只剩1台也能正常跑) 可靠性高 # 在哪些场景下会选择 kafka？ kafka的一些应用 - 日志收集：一个公司可以用kafka可以收集各种服务的log，通过kafka以统一接口服务的方式开放给各种consum 阅读全文

posted @ 2023-06-10 15:48 _泡泡阅读(103) 评论(0) 推荐(0) 编辑

Kafka关键原理

摘要：# 日志分段切分条件日志分段文件切分包含以下4个条件，满足其一即可： 1. 当前日志分段文件的大小超过了broker端参数 `log.segment.bytes` 配置的值。`log.segment.bytes`参数的默认值为 `1073741824`，即1GB 2. 当前日志分段中消息的最小时间阅读全文

posted @ 2023-06-09 19:48 _泡泡阅读(237) 评论(0) 推荐(0) 编辑

Kafka的系统架构和API开发

摘要：# 系统架构 **主题topic和分区partition** - topic Kafka中存储数据的逻辑分类；你可以理解为数据库中“表”的概念；比如，将app端日志、微信小程序端日志、业务库订单表数据分别放入不同的topic - partition分区（提升kafka吞吐量） topic中数据的具体阅读全文

posted @ 2023-06-08 19:50 _泡泡阅读(306) 评论(0) 推荐(1) 编辑

kafka的安装和基本操作

摘要：# 基本概念 ## 简介 Kafka 最初是由 LinkedIn 即领英公司基于 Scala 和 Java 语言开发的分布式消息发布-订阅系统，现已捐献给Apache 软件基金会。其具有高吞吐、低延迟的特性，许多大数据实时流式处理系统比如 Storm、Spark、Flink等都能很好地与之集成。总阅读全文

posted @ 2023-06-07 17:17 _泡泡阅读(588) 评论(0) 推荐(2) 编辑

Zookeeper安装及基本操作

摘要：# zookeeper ZooKeeper是一个开源的分布式应用程序协调服务简单来说可以理解为zookeeper = 文件系统+监听通知机制应用场景: 1. 集群管理、服务器状态感知 2. 分布式应用配置管理 3. 统一命名服务 4. 分布式锁 > 小总结： >1. 为客户提供写数据功能数据不阅读全文

posted @ 2023-06-06 19:46 _泡泡阅读(411) 评论(0) 推荐(0) 编辑

Redis(四) -- 缓存

摘要：# 缓存 ## 缓存更新方式这是决定在使用缓存时就该考虑的问题。 - 设置缓存数据的TTL，当缓存数据失效后，如果有系统要请求，则会查询数据库并插入缓存（被动更新）不友好 - 在各类会往mysql写入数据的系统中，植入更新缓存的逻辑（判断哪些表的数据是热点数据，那么就可以在这些表数据的更新操作逻阅读全文

posted @ 2023-06-05 18:57 _泡泡阅读(30) 评论(0) 推荐(0) 编辑

Redis(三) -- 其他数据类型和数据持久化

摘要：# 其他数据类型 ## List ### LPUSH ```sql LPUSH key value [value ...] -- 将一个或多个值 value 插入到列表 key 的表头 -- 如果有多个 value 值，那么各个 value 值按从左到右的顺序依次插入到表头：比如说，对空列表 my 阅读全文

posted @ 2023-06-04 21:28 _泡泡阅读(59) 评论(0) 推荐(0) 编辑

Redis(二) -- 练习

摘要：# 模拟手机验证码需求：使用redis模拟手机验证码发送，验证码有效期60s，验证验证码输入不能超过3次，超过3次今天就没机会了 ```java //验证手机号 /** * 判断字符串是否符合手机号码格式 * 移动号段: 134 135 136 137 138 139 147 148 150 15 阅读全文

posted @ 2023-06-03 23:42 _泡泡阅读(30) 评论(0) 推荐(0) 编辑

Redis(一) -- 基础

摘要：# Redis Redis是一个开源（BSD许可高性能的内存存储的key-value数据库! 可用作数据库，高速缓存和消息队列代理。它支持字符串、哈希表、列表(List)、集合(Set)、有序集合(Ordered Sets)，位图（bitmap），hyperloglogs，GEO等数据类型。内置复制阅读全文

posted @ 2023-06-02 20:14 _泡泡阅读(91) 评论(0) 推荐(0) 编辑

Doris(七) -- 修改表、动态和临时分区、join的优化

摘要：# 修改表 ## 修改表名 ```SQL -- 1.将名为 table1 的表修改为 table2 ALTER TABLE table1 RENAME table2; -- 示例 ALTER TABLE aggregate_test RENAME aggregate_test1; -- 2.将表 e 阅读全文

posted @ 2023-06-01 19:09 _泡泡阅读(4239) 评论(0) 推荐(0) 编辑

06 2023 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论