大数据

RecordReader:

记录阅读器将数据分解为键/值对,以供映射器输入。

 

Partitioner:

分区键空间。

<p><code>Partitioner</code>控制中间映射输出键的分区。键(或键的子集)用于派生

分区,通常通过哈希函数。分区的总数与任务的reduce任务的总数相同。因此,控制

哪个<code>m</code> reduce任务的中间键(因此记录)被发送到reduce任务。</p>

 

getPartition获取分区的数量一定要小于等于reduce任务数

 

shuffle:

将map输出作为输入传递给reduce的过程:详情见权威指南7.3-------》详详情见源码

将map方法的结果写入到缓冲区

进行分区排序溢写到磁盘

合并到磁盘

reduce端请求数据(分区好的数据)

reduce端进行合并

传递给reduce方法



posted @ 2021-09-22 23:24  大风吹爱护  阅读(24)  评论(0编辑  收藏  举报