大数据
RecordReader:
记录阅读器将数据分解为键/值对,以供映射器输入。
Partitioner:
分区键空间。
<p><code>Partitioner</code>控制中间映射输出键的分区。键(或键的子集)用于派生
分区,通常通过哈希函数。分区的总数与任务的reduce任务的总数相同。因此,控制
哪个<code>m</code> reduce任务的中间键(因此记录)被发送到reduce任务。</p>
getPartition获取分区的数量一定要小于等于reduce任务数
shuffle:
将map输出作为输入传递给reduce的过程:详情见权威指南7.3-------》详详情见源码
将map方法的结果写入到缓冲区
进行分区排序溢写到磁盘
合并到磁盘
reduce端请求数据(分区好的数据)
reduce端进行合并
传递给reduce方法