摘要: Shuffle过程包含在Map和Reduce两端中,是MapReduce的核心所在。一、Map端在Map端,Shuffle过程是对Map的结果进行划分(partition)、溢写(spill),然后将属于统一个划分的输出合并(merge)在一起。其主要流程如下图所示:整个流程分为四步。每个Map T... 阅读全文
posted @ 2014-04-23 23:28 Shanks-香克斯 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 1.InputFormat数据→InputSplit→RecordReader→→Map |← InputFormat →|InputFormat是一个interface,用户在启动MapReduce的时候需要指定一个InputFormat的implement。InputFormat只包含了... 阅读全文
posted @ 2014-04-23 16:01 Shanks-香克斯 阅读(280) 评论(0) 推荐(0) 编辑