随笔分类 - MapReduce
摘要:MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段 任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle:分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前,需要先进行分区,然后区内排序 ②环形缓存区数据到达阈值(80
阅读全文
摘要:一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系
阅读全文