摘要:
1、基本介绍 排序是MapReduce框架中最重要的操作之一。MapTask和ReduceTask均会对数据按照key进行排序。该操作属于Hadoop的默认行为。任何应用程序中的数据均会被排序,而不管逻辑上是否需要。默认排序是按照字典顺序排序,且实现该排序的方法是快速排序。对于MapTask,它会将 阅读全文
摘要:
1、Shuffle机制定义 Map方法之后,Reduce方法之前的数据处理过程称之为Shuffle; 2、Partition 2.1、问题引入 要求将统计结果按照条件输出到不同文件中(分区)。比如:将统计结果按照手机归属地不同省份输出到不同文件中(分区) 2.2、默认分区 public class 阅读全文