摘要: 父RDD的每一个分区最多被一个子RDD的分区所用,即同分区的所有key可以被映射到同一分区,这就是窄依赖,没必要进行shuffle。 宽依赖,key被映射到不同分区,需要shuffle。 spark中有两类stage,也称为task,一类是shuffleMapTask(用于shuffle),另一类是 阅读全文
posted @ 2018-12-09 00:20 0xCAFE 阅读(981) 评论(0) 推荐(0) 编辑