hadoop Shuffle Spark Shuffle

2020-05-24 22:15 DataBases 阅读(333) 评论(0) 编辑收藏举报

什么是大数据处理的Shuffle？

无论是Hadoop还是Spark，都要实现Shuffle。Shuffle描述数据从map tasks的输出到reduce tasks输入的这段过程。
Shuffle是连接map和reduce之间的桥梁，map的输出要用到reduce中必须经过shuffle这个环节，shuffle的性能高低
直接影响了整个程序的性能和吞吐量。因为在分布式情况下，reduce task需要跨节点去拉取其它节点上的map task的结果。
这一过程将会产生网络资源消耗和内存，磁盘io的消耗。
通常shuffle分为两个部分：map阶段的数据准备和reduce阶段的数据拷贝处理。一般将在map端的shuffle称之为shuffle write，
在reduce端的shuffle称之为shuffle Read。

为什么大数据集群处理需要进行Shuffle？
map tasks的output向着reduce tasks的输入input映射的时候，并非节点一一对应的，在节点A上做map任务的输出结果，
可能要分散跑到reduce节点A、B、C、D ，就好像shuffle的字面意思“洗牌”一样，
这些map的输出数据要打散然后根据新的路由算法（比如对key进行某种hash算法），发送到不同的reduce节点上去。

Hadoop和Spark的Shuffle分别是如何实现的？

在map端，一个task经历了：输入(input)过程、切分(partition)过程、溢写spill过程、merge过程；其中spill和merge都要排序，
而combiner【备注：combiner相当于map端的reduce】是可选的。在reduce端，当有一个map task完成后，yarn会告知reducer拉取(fetch)任务，
在所有的map任务完成之前，reducer都是在重复的拉取(copy)数据、merge这两个步骤。需要注意的是，这两个步骤是来源与不同的map task结果生成的文件，
并且，reducer只merge属于自己分区的文件。

Spark Shuffle

每一个key对应的value不一定都是在一个partition中，也不太可能在同一个节点上，因为RDD是分布式的弹性的数据集，它的partition极有可能分布在各个节点上。
既然出现如上的问题，那么Spark如何进行聚合？
– Shuffle Write：上一个stage的每个map task就必须保证将自己处理的当前分区中的数据相同的key写入一个分区文件中，可能会写入多个不同的分区文件中。
– Shuffle Read：reduce task就会从上一个stage的所有task所在的机器上寻找属于自己的那些分区文件，这样就可以保证每一个key所对应的value都会汇聚到同一个节点上去处理和聚合。

Hash-Based Shuffle–普通机制||合并机制