ReduceTask工作机制

Copy阶段：ReduceTask从各个MapTask上远程拷贝一片数据，如果其大小超过一定的阈值，则写道磁盘上，否则直接放到内存中；

Merge阶段：在远程拷贝数据的同时，ReduceTask启动了两个后台线程对内存和磁盘上的文件进行合并，以防止内存使用过多或磁盘上文件过多；

Sort阶段：与Merge阶段同时进行，用户编写reduce函数输入数据是按key进行聚集的一组数据，为了将相同key聚集在一起，hadoop采用了基于排序策略。由于MapTask对自己的结果已经进行了局部排序，因此ReduceTask只需要对所有数据进行一次归并排序即可；

Reduce阶段：reduce函数将计算结果写到hdfs上；

posted @ 2020-09-27 19:12 _蒲公英_ 阅读(305) 评论(0) 编辑收藏举报

刷新页面返回顶部