随笔档案「2016年7月」 - Ivan.Jiang

摘要：贝叶斯分类的分析阅读全文

posted @ 2016-07-28 19:06 Ivan.Jiang 阅读(269) 评论(0) 推荐(0)

摘要：分析了shuffle过程中，分区的原理和实现阅读全文

posted @ 2016-07-25 13:59 Ivan.Jiang 阅读(405) 评论(0) 推荐(0)

摘要：map的输出，通过分区函数决定要发往哪个reducer。有2种情况，我们自定义的Partitioner不会被调用 1) reducer个数为0 这种情况，没有reducer，不需要分区 2) reducer个数为1 这种情况，所有的map输出都会发到这个唯一的reducer，不需要调用我们的自定义阅读全文

posted @ 2016-07-25 09:57 Ivan.Jiang 阅读(333) 评论(0) 推荐(0)

Eclipse 4.6 Neon, could not create the java virtual machine

摘要：下了eclipse 4.6，打开报错：could not create the java virtual machine. a fatal exception has occurred. 命令行用 eclipse -vm，可以看到这个版本的这个版本的eclipse需要jdk 1.8了本想着修改它的阅读全文

posted @ 2016-07-23 17:59 Ivan.Jiang 阅读(1967) 评论(1) 推荐(0)

MapReduce实现的Join

摘要：介绍了mapreduce实现join的方法和思路，编写代码使用DistributedCache实现了map join. 环境基于 CentOs 6.4, apache-hadoop-2.5.0 阅读全文

posted @ 2016-07-23 12:19 Ivan.Jiang 阅读(10030) 评论(0) 推荐(1)

Mapreduce中的字符串编码

摘要：Mapreduce中的字符串编码 $$$ Shuffle的执行过程，需要经过多次比较排序。如果对每一个数据的比较都需要先反序列化，对性能影响极大。 RawComparator的作用就不言而喻，能够直接使用序列化后的字节流进行比较，不需要反序列化就能够完成排序功能。 $$$ hadoop使用的是jdk 阅读全文

posted @ 2016-07-23 12:16 Ivan.Jiang 阅读(892) 评论(0) 推荐(0)

mapreduce 二次排序

摘要：mapreduce实现的二次排序，使用自定义key实现基于字节流实现的比较器。阅读全文

posted @ 2016-07-22 17:40 Ivan.Jiang 阅读(1700) 评论(0) 推荐(0)

小小

07 2016 档案

公告