07 2016 档案
摘要:分析了shuffle过程中,分区的原理和实现
阅读全文
摘要:map的输出,通过分区函数决定要发往哪个reducer。 有2种情况,我们自定义的Partitioner不会被调用 1) reducer个数为0 这种情况,没有reducer,不需要分区 2) reducer个数为1 这种情况,所有的map输出都会发到这个唯一的reducer,不需要调用我们的自定义
阅读全文
摘要:下了eclipse 4.6,打开报错:could not create the java virtual machine. a fatal exception has occurred. 命令行用 eclipse -vm,可以看到这个版本的这个版本的eclipse需要jdk 1.8了 本想着修改它的
阅读全文
摘要:介绍了mapreduce实现join的方法和思路,编写代码使用DistributedCache实现了map join.
环境基于 CentOs 6.4, apache-hadoop-2.5.0
阅读全文
摘要:Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序。如果对每一个数据的比较都需要先反序列化,对性能影响极大。 RawComparator的作用就不言而喻,能够直接使用序列化后的字节流进行比较,不需要反序列化就能够完成排序功能。 $$$ hadoop使用的是jdk
阅读全文
摘要:mapreduce实现的二次排序,使用自定义key实现基于字节流实现的比较器。
阅读全文