02 2024 档案

摘要:v> RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个 SparkContext 即生成一个 Application; Job:一个 Action 算子就会生成一个 Job; Stage:Stage 等于宽依赖(ShuffleDe 阅读全文
posted @ 2024-02-21 17:26 会飞的猪仔 阅读(21) 评论(0) 推荐(0) 编辑
摘要:分析源码步骤: 第一步程序入口: 第二步一直查看runjob方法,可以看出collect()是RDD行动算子,与Job运行提交相关 rdd.scala sparkcontext.scala sparkcontext.scala sparkcontext.scala 第三步runJob()与DAG调度 阅读全文
posted @ 2024-02-21 16:17 会飞的猪仔 阅读(30) 评论(0) 推荐(0) 编辑
摘要:Spark glom 功能:该函数将RDD中每一个分区变成一个数组,并放置在新的RDD中,数组中元素的类型与原分区中元素类型一致 val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("mapPartitions 阅读全文
posted @ 2024-02-19 18:03 会飞的猪仔 阅读(71) 评论(0) 推荐(0) 编辑
摘要:dd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。Map 算子是分区内一个数据一个数据的执行,类似于串行操作。而 mapPartiti 阅读全文
posted @ 2024-02-19 15:52 会飞的猪仔 阅读(86) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示