spark并行度

推荐全局并行度;集群中的 并行度设置为cpu总核心的2~10倍;规划并行度,只看集群总cpu核数

5.spark的任务调度

sparkde任务,由driver进行调度,这个工作包含:逻辑DAG产生、分区DAg产生、task划分、将task分配给executor并监控其工作

DAG调度器:讲逻辑的dAG图进行处理,最终得到逻辑上的task划分

task调度器:基于DAG Scheduler的产出,来规划这些逻辑的task,应该放在那些无力的executor上运行,以及监控管理他们的运行

6.层次关系梳理

    一个spark环境可以运行多个application
    一个代码运行起来,会成为一个application
    application内部可以有多个job
    每个job由一个action产生,并且每个job有自己的DAg执行图
    一个job的dag图会基于宽窄依赖划分成不同的阶段
    不同阶段内基于分区数量,形成多个并行的内存迭代管道
    每一个内存迭代管道形成一个task