摘要: 排序是MapReduce框架中重要的操作之一,其中MapTask和ReduceTask都会对数据按照key进行排序,这是Hadoop默认进行的操作。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。一个MapReduce程序涉及了多种排序,而且相同类型的排序可能还进行了多次。其中,我们也可以自行 阅读全文
posted @ 2020-05-30 17:42 有心有梦 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 分区是MapReduce框架的Map阶段进行数据处理之后,将数据写出时需要进行的一项操作,分区的数量决定了ReduceTask的数量,也决定了最终的输出文件有多少个。其中,Hadoop是有默认的分区方法的,即HashPartitioner类是默认的分区类,该类的源码如下: public class 阅读全文
posted @ 2020-05-30 16:23 有心有梦 阅读(449) 评论(0) 推荐(0) 编辑