07 2016 档案

摘要:贝叶斯分类的分析 阅读全文
posted @ 2016-07-28 19:06 Ivan.Jiang 阅读(249) 评论(0) 推荐(0) 编辑
摘要:分析了shuffle过程中,分区的原理和实现 阅读全文
posted @ 2016-07-25 13:59 Ivan.Jiang 阅读(386) 评论(0) 推荐(0) 编辑
摘要:map的输出,通过分区函数决定要发往哪个reducer。 有2种情况,我们自定义的Partitioner不会被调用 1) reducer个数为0 这种情况,没有reducer,不需要分区 2) reducer个数为1 这种情况,所有的map输出都会发到这个唯一的reducer,不需要调用我们的自定义 阅读全文
posted @ 2016-07-25 09:57 Ivan.Jiang 阅读(324) 评论(0) 推荐(0) 编辑
摘要:下了eclipse 4.6,打开报错:could not create the java virtual machine. a fatal exception has occurred. 命令行用 eclipse -vm,可以看到这个版本的这个版本的eclipse需要jdk 1.8了 本想着修改它的 阅读全文
posted @ 2016-07-23 17:59 Ivan.Jiang 阅读(1949) 评论(1) 推荐(0) 编辑
摘要:介绍了mapreduce实现join的方法和思路,编写代码使用DistributedCache实现了map join. 环境基于 CentOs 6.4, apache-hadoop-2.5.0 阅读全文
posted @ 2016-07-23 12:19 Ivan.Jiang 阅读(9983) 评论(0) 推荐(1) 编辑
摘要:Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序。如果对每一个数据的比较都需要先反序列化,对性能影响极大。 RawComparator的作用就不言而喻,能够直接使用序列化后的字节流进行比较,不需要反序列化就能够完成排序功能。 $$$ hadoop使用的是jdk 阅读全文
posted @ 2016-07-23 12:16 Ivan.Jiang 阅读(879) 评论(0) 推荐(0) 编辑
摘要:mapreduce实现的二次排序,使用自定义key实现基于字节流实现的比较器。 阅读全文
posted @ 2016-07-22 17:40 Ivan.Jiang 阅读(1674) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示