摘要: Spark 将任务以 shuffle 依赖(宽依赖)为边界打散,划分多个 Stage. 最后的结果阶段叫做 ResultStage, 其它阶段叫 ShuffleMapStage. 1.从后往前推理,遇到宽依赖就断开,遇到窄依赖就把当前RDD加入到该Stage 2.每个Stage里面Task的数量是由 阅读全文
posted @ 2019-08-15 20:48 雨花石开 阅读(1387) 评论(1) 推荐(0) 编辑
摘要: spark-DAG图 DAG(Directed Acyclic Graph)叫做有向无环图,原始的RDD通过一系列的转换就就形成了DAG,RDD之间的依赖关系形成了DAG图,而根据RDD之间的依赖关系的不同将DAG划分成不同的Stage。 宽窄依赖 窄依赖:父RDD和子RDD partition之间 阅读全文
posted @ 2019-08-15 20:19 雨花石开 阅读(365) 评论(0) 推荐(0) 编辑