Spark - 随笔分类 - Zhbeii

摘要：![image](https://img2022.cnblogs.com/blog/2138338/202201/2138338-20220125100501224-3925648.png) 阅读全文

posted @ 2022-01-25 10:05 Zhbeii 阅读(23) 评论(0) 推荐(0)

Spark分区

摘要：默认采用的是Hash分区缺点：可能导致每个分区中数据量的不均匀，极端情况下会导致某些分区拥有RDD的全部数据 Ranger分区要求RDD中的KEY类型必须可以排序自定义分区根据需求，自定义分区阅读全文

posted @ 2022-01-24 23:18 Zhbeii 阅读(52) 评论(0) 推荐(0)

摘要：**窄依赖：**窄依赖表示每一个父(上游)RDD 的 Partition 最多被子（下游）RDD 的一个 Partition 使用 **宽依赖：**宽依赖表示同一个父（上游）RDD 的 Partition 被多个子（下游）RDD 的 Partition 依赖，会引起 Shuffle 阅读全文

posted @ 2022-01-24 23:13 Zhbeii 阅读(95) 评论(0) 推荐(0)

Kryo序列化

摘要：Java 的序列化能够序列化任何的类。但是比较重（字节多），序列化后，对象的提交也比较大。Spark 出于性能的考虑，Spark2.0 开始支持另外一种 Kryo 序列化机制。Kryo 速度是 Serializable 的 10 倍。当 RDD 在 Shuffle 数据的时候，简单数据类型、数组和字阅读全文

posted @ 2022-01-20 12:35 Zhbeii 阅读(388) 评论(0) 推荐(0)

Spark算子

摘要：Spark的transformation算子（不少于8个）（重点）单Value （1）map：将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换（2）mapPartitions：将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处理，哪怕是过滤阅读全文

posted @ 2022-01-20 12:05 Zhbeii 阅读(305) 评论(0) 推荐(0)

SparkStream kafka direct

摘要：https://blog.csdn.net/erfucun/article/details/52275369 https://blog.csdn.net/matrix_google/article/details/80033524 阅读全文

posted @ 2022-01-13 11:25 Zhbeii 阅读(19) 评论(0) 推荐(0)

RDD

摘要：RDD的基本性质 RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。弹性存储的弹性：内存与磁盘的自动切换容错的弹性：数据丢失可以自动恢复计算的弹性：计算出错重试机制分片的弹性：可根据需要重新分片分布式数据集阅读全文

posted @ 2022-01-10 09:46 Zhbeii 阅读(420) 评论(0) 推荐(0)

Spark的Driver和Executor

摘要：Spark 框架有两个核心组件:Driver和Executor **Driver:**驱动整个应用运行起来的程序,也叫Driver类将用户程序转化为作业（job）在 Executor 之间调度任务(task) 跟踪 Executor 的执行情况通过 UI 展示查询运行情况 Executor: 阅读全文

posted @ 2022-01-10 08:38 Zhbeii 阅读(1434) 评论(0) 推荐(0)

RDD的创建

摘要：从集合（内存）中创建 RDD 从底层代码实现来讲，makeRDD 方法其实就是 parallelize 方法 val sparkConf = new SparkConf().setMaster("local[*]").setAppName("spark") val sparkContext = ne 阅读全文

posted @ 2022-01-09 19:41 Zhbeii 阅读(58) 评论(0) 推荐(0)

Accumulator（累加器）

摘要：累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，传回 Driver 端进行 merge。从Accumulator中，获取数据，插入数据阅读全文

posted @ 2021-12-29 16:30 Zhbeii 阅读(318) 评论(0) 推荐(0)

RDD的持久化

摘要：RDD Cache缓存 RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存，默认情况下会把数据以缓存在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的 action 算子时，该 RDD 将会被缓存在计算节点的内存中，并供后面重用存储级别：如果级别名阅读全文

posted @ 2021-12-29 15:20 Zhbeii 阅读(144) 评论(0) 推荐(0)

Loading

Zhbeii

随笔分类 - Spark

公告