Ivan.Jiang - 博客园

摘要： map的输出，通过分区函数决定要发往哪个reducer。有2种情况，我们自定义的Partitioner不会被调用 1) reducer个数为0 这种情况，没有reducer，不需要分区 2) reducer个数为1 这种情况，所有的map输出都会发到这个唯一的reducer，不需要调用我们的自定义阅读全文

posted @ 2016-07-25 09:57 Ivan.Jiang 阅读(332) 评论(0) 推荐(0)

2016年7月23日

Eclipse 4.6 Neon, could not create the java virtual machine

摘要：下了eclipse 4.6，打开报错：could not create the java virtual machine. a fatal exception has occurred. 命令行用 eclipse -vm，可以看到这个版本的这个版本的eclipse需要jdk 1.8了本想着修改它的阅读全文

posted @ 2016-07-23 17:59 Ivan.Jiang 阅读(1965) 评论(1) 推荐(0)

MapReduce实现的Join

摘要：介绍了mapreduce实现join的方法和思路，编写代码使用DistributedCache实现了map join. 环境基于 CentOs 6.4, apache-hadoop-2.5.0 阅读全文

posted @ 2016-07-23 12:19 Ivan.Jiang 阅读(10028) 评论(0) 推荐(1)

Mapreduce中的字符串编码

摘要： Mapreduce中的字符串编码 $$$ Shuffle的执行过程，需要经过多次比较排序。如果对每一个数据的比较都需要先反序列化，对性能影响极大。 RawComparator的作用就不言而喻，能够直接使用序列化后的字节流进行比较，不需要反序列化就能够完成排序功能。 $$$ hadoop使用的是jdk 阅读全文

posted @ 2016-07-23 12:16 Ivan.Jiang 阅读(891) 评论(0) 推荐(0)

小小

公告