摘要: Spark中的shuffle是在干嘛?Shuffle在Spark中即是把父RDD中的KV对按照Key重新分区,从而得到一个新的RDD。也就是说原本同属于父RDD同一个分区的数据需要进入到子RDD的不同的分区。但这只是shuffle的过程,却不是shuffle的原因。为何需要shuffle呢?Shuf... 阅读全文
posted @ 2015-09-11 12:58 devos 阅读(7672) 评论(0) 推荐(0) 编辑