mapreduce程序执行过程

1、客户端程序,设置作业相关的配置和计算输入分片信息,向RM获取一个JOBID,提交作业信息(分片)到以作业ID为目录下,通知APP——MASTER

2、APP——MASTER,读取指定目录下的作业信息,根据分片信息,建立MAP 任务

     MAP在输出时,会根据reducer的数量,在内存中分区,并使用多个线程对每个分区内的记录进行排序

    当缓冲到达额度时,会写入一个溢出文件。最终每个MAP的溢出文件会合并为一个输出文件(分区并排好序的文件),MAP任务执行完毕,通过HTTP通知

    APP_MASTER,框架会到指定的分区下获取数据并复制到reduce的输入缓存排序合并,溢出生成文件,最终合并到输入缓存,作为reduce的输入。

3、reduce输出

posted @ 2019-10-07 17:45  FromScratch  阅读(372)  评论(0编辑  收藏  举报