2020 年 5月 30 日随笔档案 - 有心有梦

2020年5月30日

摘要：排序是MapReduce框架中重要的操作之一，其中MapTask和ReduceTask都会对数据按照key进行排序，这是Hadoop默认进行的操作。任何应用程序中的数据均会被排序，而不管逻辑上是否需要。一个MapReduce程序涉及了多种排序，而且相同类型的排序可能还进行了多次。其中，我们也可以自行阅读全文

posted @ 2020-05-30 17:42 有心有梦阅读(384) 评论(0) 推荐(0) 编辑

Partition分区

摘要：分区是MapReduce框架的Map阶段进行数据处理之后，将数据写出时需要进行的一项操作，分区的数量决定了ReduceTask的数量，也决定了最终的输出文件有多少个。其中，Hadoop是有默认的分区方法的，即HashPartitioner类是默认的分区类，该类的源码如下： public class 阅读全文

posted @ 2020-05-30 16:23 有心有梦阅读(449) 评论(0) 推荐(0) 编辑

有心有梦

不忘初心，不乱于心；日拱一卒，日积月累。

公告