wqy1027

eeee

 

spark缓存策略、RDD容错、宽依赖和窄依赖、术语解释、spark任务调度器

spark缓存策略

 

 常用:memory_only和memory_and_disk_ser

 

RDD容错

血统(lineage)类似于人类的进化,有一系列的依赖

 

 粗粒度:只是记录过程; 细粒度:每一条数据都会保存副本

 

 

宽依赖和窄依赖

 

宽依赖:一对多;窄依赖:一对一

 

 

部分术语解释

 resouceManager会给executor分配一个combiner,它会在combiner中启动

 

 

 

 

spark任务调度器

任务调度

 

DAGScheduler

 

 

TaskScheduler

 

 

 job调度流程

 

 

总结;

前五个是资源调度的过程,后面是任务调度

 

posted on 2022-10-26 15:07  不想写代码的小玉  阅读(36)  评论(0编辑  收藏  举报

导航