spark中stage划分简单总结

父RDD的每一个分区最多被一个子RDD的分区所用,即同分区的所有key可以被映射到同一分区,这就是窄依赖,没必要进行shuffle。

宽依赖,key被映射到不同分区,需要shuffle。

spark中有两类stage,也称为task,一类是shuffleMapTask(用于shuffle),另一类是resultTask(用于产生结果)。

posted @   0xCAFE  阅读(984)  评论(0编辑  收藏  举报
努力加载评论中...
点击右上角即可分享
微信分享提示