分组框架Hadoop框架排序和分组的理解
查了好多资料,发现还是不全,干脆自己整理吧,至少保证在我的做法正确的,以免误导读者,也是给自己做个记录吧!
MapReduce框架会确保每个Reducer的输入都是按Key停止排序的。一般,将排序以及Map的输出传输到Reduce的过程称为混洗(shuffle)。每个Map都包含一个环形的缓存,默认100M,Map首先将输出写到缓存当中。当缓存的内容达到“阈值”时(阈值默认的大小是缓存的80%),一个后台线程负责将结果写到硬盘,这个过程称为“spill”。Spill过程当中,Map仍可以向缓存写入结果,如果缓存已写满,那么Map停止等待。
Spill的具体过程如下:首先,后台线程根据Reducer的个数将输出结果停止分组,每个分组对应一个Reducer。其次,对于每个分组后台线程对输出结果的Key停止排序。在排序过程当中,如果有Combiner函数,则对排序结果停止Combiner函数停止调用。每一次spill都会在硬盘发生一个spill文件。因此,一个Map task有可能会发生多个spill文件,当Map写出最后一个输出时,会将全部的spill文件停止合并与排序,输出终究的结果文件。在这个过程当中Combiner函数仍然会被调用。从整个过程来看,Combiner函数的调用次数是不确定的。
Hadoop是如何停止排序的呢?根据笔者的理解,MapReduce的排序过程分为两个步骤,一个按照Key停止排序;一个是按照Key停止分组。这两部分分别由SortComparator和GroupingComparator来实现。具体的配置如下面黑体所示:
job.setPartitionerClass(FirstPartitioner.class);
job.setSortComparatorClass(KeyComparator.class);
job.setGroupingComparatorClass(GroupComparator.class);
如果用户想自定义排序方式,首先须要实现两个Comparator并将其按照下面的格式停止配置。每个Comparator须要继承WritableComparator基类。如下所示:
public static class GroupComparator extends WritableComparator {
protected GroupComparator() {
super(IntPair.class, true);
}
@Override
public int compare(WritableComparable w1, WritableComparable w2) {
IntPair ip1 = (IntPair) w1;
IntPair ip2 = (IntPair) w2;
return IntPair.compare(ip1.getFirst(), ip2.getFirst());
}
}
文章结束给大家分享下程序员的一些笑话语录:
祝大家在以后的日子里. 男生象Oracle般健壮; 女生象win7般漂亮; 桃花运象IE中毒般频繁; 钱包如Gmail容量般壮大, 升职速度赶上微软打补丁 , 追女朋友像木马一样猖獗, 生活像重装电脑后一样幸福, 写程序敲代码和聊天一样有**。
---------------------------------
原创文章 By
分组和框架
---------------------------------