spark中stage划分简单总结

父RDD的每一个分区最多被一个子RDD的分区所用,即同分区的所有key可以被映射到同一分区,这就是窄依赖,没必要进行shuffle。

宽依赖,key被映射到不同分区,需要shuffle。

spark中有两类stage,也称为task,一类是shuffleMapTask(用于shuffle),另一类是resultTask(用于产生结果)。

posted @ 2018-12-09 00:20  0xCAFE  阅读(982)  评论(0编辑  收藏  举报