摘要: Key排序1. 继承WritableComparator 在hadoop之Shuffle和Sort中,可以看到mapper的输出文件spill文件需要在内存中排序,并且在输入reducer之前,不同的mapper的数据也会排序,排序是根据数据的key进行的.如果key是用户自定义的类型,并没有默认... 阅读全文
posted @ 2015-07-31 20:52 很厉害的名字 阅读(852) 评论(0) 推荐(0) 编辑
摘要: partitioner负责shuffle过程的分组部分,目的是让map出来的数据均匀分布在reducer上,当然,如果我们不需要数据均匀,那么这个时候可以自己定制符合要求的partitioner. 下面内容涉及到的源代码请参考https://hadoop.apache.org/docs/curr... 阅读全文
posted @ 2015-07-31 20:51 很厉害的名字 阅读(709) 评论(0) 推荐(0) 编辑
摘要: MapRduce保证reducer的输入是按照key进行排过序的,原因和归并排序有关,在reducer接收到不同的mapper输出的有序数据后,需要再次进行排序,然后是分组排序,如果mapper输出的是有序数据,将减少reducer阶段排序的时间消耗.一般将排序以及Map的输出传输到Reduce... 阅读全文
posted @ 2015-07-31 20:46 很厉害的名字 阅读(2977) 评论(0) 推荐(1) 编辑
摘要: 1. Mapper类首先 Mapper类有四个方法:(1) protected void setup(Context context)(2) Protected void map(KEYIN key,VALUEIN value,Context context)(3) protected void c... 阅读全文
posted @ 2015-07-31 16:47 很厉害的名字 阅读(3756) 评论(0) 推荐(0) 编辑