Spark中hashshuffle与sortshuffle

在spark1.2以上的版本中，默认shuffle的方式已经变成了sortshuffle（在spark.shuffle.manager修改org.apache.spark.shuffle.sort.HashShuffleManager或者org.apache.spark.shuffle.sort.SortShuffleManager进行切换）。

hashshuffle会在map根据reduce来生成文件。也就是说如果reduce有10个，那么一个map就会生成一个文件，来表明被不同的reduce使用。

sortshuffle会在map后进行数据排序，只会生成一个文件，然后在这个文件中offset偏移量来区别要进入到哪个reduce。