2014 年 2月 26 日随笔档案 - idouba.net

2014年2月26日

【hadoop代码笔记】Mapreduce shuffle过程之Map输出过程

摘要：一、概要描述 shuffle是MapReduce的一个核心过程，因此没有在前面的MapReduce作业提交的过程中描述，而是单独拿出来比较详细的描述。根据官方的流程图示如下：本篇文章中只是想尝试从代码分析来说明在map端是如何将map的输出保存下来等待reduce来取。在执行每个map task时，无论map方法中执行什么逻辑，最终都是要把输出写到磁盘上。如果没有reduce阶段，则直接输出到hdfs上，如果有有reduce作业，则每个map方法的输出在写磁盘前线在内存中缓存。每个map task都有一个环状的内存缓冲区，存储着map的输出结果，默认100m，在每次当缓冲区快满的时候由一个阅读全文

posted @ 2014-02-26 20:48 idouba.net 阅读(3305) 评论(1) 推荐(1) 编辑

爱豆吧

【hadoop代码笔记】Mapreduce shuffle过程之Map输出过程

导航

公告