spark缓存策略、RDD容错、宽依赖和窄依赖、术语解释、spark任务调度器
spark缓存策略
常用:memory_only和memory_and_disk_ser
RDD容错
血统(lineage)类似于人类的进化,有一系列的依赖
粗粒度:只是记录过程; 细粒度:每一条数据都会保存副本
宽依赖和窄依赖
宽依赖:一对多;窄依赖:一对一
部分术语解释
resouceManager会给executor分配一个combiner,它会在combiner中启动
spark任务调度器
任务调度
DAGScheduler
TaskScheduler
job调度流程
总结;
前五个是资源调度的过程,后面是任务调度