随笔分类 -  MapReduce

摘要:MapperReduce的shuffle shuffle阶段划分 Map阶段和Reduce阶段 任务 MapTask和ReduceTask shuffle过程 Map阶段shuffle:分区->排序->合并 ①数据从环形缓冲区溢写到磁盘前,需要先进行分区,然后区内排序 ②环形缓存区数据到达阈值(80 阅读全文
posted @ 2020-07-31 18:43 来自遥远的水星 阅读(905) 评论(0) 推荐(0) 编辑
摘要:一.分区 问题:按照条件将结果输出到不同文件中 自定义分区步骤 1.自定义继承Partitioner类,重写getPartition()方法 2.在job驱动Driver中设置自定义的Partitioner 3.在Driver中根据分区数设置reducetask数 分区数和reducetask关系 阅读全文
posted @ 2020-06-21 10:27 来自遥远的水星 阅读(519) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示