$王大少

导航

2020年3月29日 #

hadoop中的压缩方式

摘要: 1、在代码中设置压缩 设置我们的map阶段的压缩 Configuration configuration = new Configuration();configuration.set("mapreduce.map.output.compress","true");configuration.set 阅读全文

posted @ 2020-03-29 16:14 $王大少 阅读(355) 评论(0) 推荐(0) 编辑

MapReduce的shuffle阶段

摘要: 1、shuffle概念: map阶段处理的数据如何传递给reduce阶段,是MapReduce框架中最关键的一个流程,这个流程就叫shuffle。 2、shuffle过程: shuffle: 洗牌、发牌——(核心机制:数据分区,排序,分组,规约,合并等过程)。 3、shuffle理解: shuffl 阅读全文

posted @ 2020-03-29 15:46 $王大少 阅读(339) 评论(0) 推荐(0) 编辑

ReduceTask工作机制和reduceTask的并行度

摘要: 1、reduceTask的并行度 取决于我们 自己的设置。 例如:设置我们的reduceTask的个数为6 job.setNumReduceTasks(6); 阅读全文

posted @ 2020-03-29 15:42 $王大少 阅读(263) 评论(0) 推荐(0) 编辑

mapTask运行机制

摘要: 1、每个切片会 启动一个mapTask去处理。 mapTask读取的文件是一个个的切片,跟我们的block块不是同一个概念切片的目的是为了控制每一个mapTask处理的文件的大小,现在默认的这个切片的大小,就是一个block块的大小 默认的切片就是128M一个,刚好跟我们的块大小吻合 2、每个map 阅读全文

posted @ 2020-03-29 14:25 $王大少 阅读(257) 评论(0) 推荐(0) 编辑