MapReduce shuffle原理

一、Shuffle过程介绍

　　Shuffle的意思就是是洗牌。在MapReduce中，从Map Task任务中输出中间数据开始，到Reduce Task任务开始执行reduce()方法结束，这一中间处理过程就被称为MapReduce的Shuffle。

　　Shuffle过程分为两个阶段：Map端的shuffle阶段和Reduce端的Shuffle阶段。

　　Map端shuffle：就是Spill过程，Spill过程有收集、排序、溢写、合并等步骤；

　　Reduce端Shuffle：包括copy和sort过程；

二、map端shuffle过程

　　1.Collect阶段

　　　　每个Map端任务不断地以K-V键值对的形式把数据输出到在内存中构造的一个环形缓冲区中。使用环形数据结构是为了更有效地使用内存空间，在内存中放置尽可能多的数据，并且这个数据结构其实就是个字节数组。

　　2.排序阶段

　　在环形缓冲区中，需要对这个空间内的key做排序(Sort)。排序是MapReduce模型默认的行为，这里的排序也是对序列化的字节做的排序。默认是按照key升序。

　　3.溢写阶段

　　　　这个环形缓冲区是有大小限制的，默认是100MB。当map task的输出结果很多时，就可能会撑爆内存，所以就要将缓冲区中的数据临时写入磁盘，然后重新利用这块缓冲区。这个从内存往磁盘写数据的过程被称为Spill，溢写。这个溢写是由单独线程来完成，不影响往缓冲区写map结果的线程。溢写线程启动时不影响map的结果输出，所以整个缓冲区有个溢写的比例spill.percent。这个比例默认是0.8，也就是当缓冲区的数据已经达到阈值（buffer size * spill percent = 100MB * 0.8 = 80MB），溢写线程启动，锁定这80MB的内存，执行溢写过程。Map task的输出结果还可以往剩下的20MB内存中写，互不影响。

　　4.Merge阶段

　　每次溢写会在磁盘上生成一个溢写文件，如果map的输出结果真的很大，有多次这样的溢写发生，磁盘上相应的就会有多个溢写文件存在。当map task真正完成时，内存缓冲区中的数据也全部溢写到磁盘中形成一个溢写文件。最终磁盘中会至少有一个这样的溢写文件存在(如果map的输出结果很少，当map执行完成时，只会产生一个溢写文件)，因为最终的文件只有一个，所以需要将这些溢写文件归并到一起，这个过程就叫做Merge。比如，“aaa”从某个map task读取过来时值是5，从另外一个map 读取时值是8，因为它们有相同的key，所以得merge成group。什么是group。对于“aaa”就是像这样的：{“aaa”, [5, 8, 2, …]}，数组中的值就是从不同溢写文件中读取出来的，然后再把这些值加起来。请注意，因为merge是将多个溢写文件合并到一个文件，所以可能也有相同的key存在，在这个过程中如果client设置过Combiner，也会使用Combiner来合并相同的key。

三、reduc端shuffle过程

　　1.Copy阶段

　　　　 Copy过程，简单地拉取数据。Reduce进程启动一些数据copy线程(Fetcher)，通过HTTP方式请求map task所在的TaskTracker获取map task的输出文件。因为map task早已结束，这些文件就归TaskTracker管理在本地磁盘中。

　　2.Merge阶段

　　　　这里的merge如map端的merge动作，只是数组中存放的是不同map端copy来的数值。Copy过来的数据会先放入内存缓冲区中，这里的缓冲区大小要比map端的更为灵活，它基于JVM的heap size设置，因为Shuffle阶段Reducer不运行，所以应该把绝大部分的内存都给Shuffle用。这里需要强调的是，merge有三种形式：1)内存到内存 2)内存到磁盘 3)磁盘到磁盘。默认情况下第一种形式不启用。当内存中的数据量到达一定阈值，就启动内存到磁盘的merge。与map 端类似，这也是溢写的过程，这个过程中如果你设置有Combiner，也是会启用的，然后在磁盘中生成了众多的溢写文件。第二种merge方式一直在运行，直到没有map端的数据时才结束，然后启动第三种磁盘到磁盘的merge方式生成最终的那个文件。

　　　　Reducer的输入文件。不断地merge后，最后会生成一个“最终文件”。为什么加引号？因为这个文件可能存在于磁盘上，也可能存在于内存中。对我们来说，当然希望它存放于内存中，直接作为Reducer的输入，但默认情况下，这个文件是存放于磁盘中的。

　　3.MergeSort阶段

　　　　在合并的同时，也会做排序操作。由于各个Map Task已经实现对数据做过局部排序，故此Reduce Task只需要做一次归并排序即可保证数据的整体有序性。执行完合并与排序操作后，Reduce Task会将数据交给reduce()方法处理。

　　　　这里使用的Merge和Map端使用的Merge过程一样。Map的输出数据已经是有序的，Merge进行一次合并排序，所谓Reduce端的sort过程就是这个合并的过程。一般Reduce是一边copy一边sort，即copy和sort两个阶段是重叠而不是完全分开的。

posted @ 2020-11-21 11:25 随时随地的阅读(404) 评论(0) 编辑收藏举报

刷新页面返回顶部

随时随地的

MapReduce shuffle原理

一、Shuffle过程介绍

二、map端shuffle过程

1.Collect阶段

2.排序阶段

3.溢写阶段

4.Merge阶段

三、reduc端shuffle过程

1.Copy阶段

2.Merge阶段

3.MergeSort阶段

公告

　　1.Collect阶段

　　2.排序阶段

　　3.溢写阶段

　　4.Merge阶段

　　1.Copy阶段

　　2.Merge阶段

　　3.MergeSort阶段