02 2024 档案
摘要:v> RDD 任务切分中间分为:Application、Job、Stage 和 Task Application:初始化一个 SparkContext 即生成一个 Application; Job:一个 Action 算子就会生成一个 Job; Stage:Stage 等于宽依赖(ShuffleDe
阅读全文
摘要:分析源码步骤: 第一步程序入口: 第二步一直查看runjob方法,可以看出collect()是RDD行动算子,与Job运行提交相关 rdd.scala sparkcontext.scala sparkcontext.scala sparkcontext.scala 第三步runJob()与DAG调度
阅读全文
摘要:Spark glom 功能:该函数将RDD中每一个分区变成一个数组,并放置在新的RDD中,数组中元素的类型与原分区中元素类型一致 val conf: SparkConf = new SparkConf().setMaster("local[*]").setAppName("mapPartitions
阅读全文
摘要:dd的mapPartitions是map的一个变种,它们都可进行分区的并行处理。两者的主要区别是调用的粒度不一样:map的输入变换函数是应用于RDD中每个元素,而mapPartitions的输入函数是应用于每个分区。Map 算子是分区内一个数据一个数据的执行,类似于串行操作。而 mapPartiti
阅读全文