摘要: 使用mysql作为hue的元数据库 阅读全文
posted @ 2016-08-23 14:16 Ivan.Jiang 阅读(6320) 评论(0) 推荐(0) 编辑
摘要: 继续分析yhd日志,统计二跳率和网站的平均访问时长 阅读全文
posted @ 2016-08-11 08:59 Ivan.Jiang 阅读(181) 评论(0) 推荐(0) 编辑
摘要: 根据yhd日志文件,分析pv,uv 阅读全文
posted @ 2016-08-11 08:54 Ivan.Jiang 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 让cdh hadoop能够支持snappy。其它版本的hadoop,过程也一样。 阅读全文
posted @ 2016-08-09 18:06 Ivan.Jiang 阅读(904) 评论(0) 推荐(0) 编辑
摘要: 贝叶斯分类的分析 阅读全文
posted @ 2016-07-28 19:06 Ivan.Jiang 阅读(245) 评论(0) 推荐(0) 编辑
摘要: 分析了shuffle过程中,分区的原理和实现 阅读全文
posted @ 2016-07-25 13:59 Ivan.Jiang 阅读(379) 评论(0) 推荐(0) 编辑
摘要: map的输出,通过分区函数决定要发往哪个reducer。 有2种情况,我们自定义的Partitioner不会被调用 1) reducer个数为0 这种情况,没有reducer,不需要分区 2) reducer个数为1 这种情况,所有的map输出都会发到这个唯一的reducer,不需要调用我们的自定义 阅读全文
posted @ 2016-07-25 09:57 Ivan.Jiang 阅读(320) 评论(0) 推荐(0) 编辑
摘要: 下了eclipse 4.6,打开报错:could not create the java virtual machine. a fatal exception has occurred. 命令行用 eclipse -vm,可以看到这个版本的这个版本的eclipse需要jdk 1.8了 本想着修改它的 阅读全文
posted @ 2016-07-23 17:59 Ivan.Jiang 阅读(1948) 评论(1) 推荐(0) 编辑
摘要: 介绍了mapreduce实现join的方法和思路,编写代码使用DistributedCache实现了map join. 环境基于 CentOs 6.4, apache-hadoop-2.5.0 阅读全文
posted @ 2016-07-23 12:19 Ivan.Jiang 阅读(9949) 评论(0) 推荐(1) 编辑
摘要: Mapreduce中的字符串编码 $$$ Shuffle的执行过程,需要经过多次比较排序。如果对每一个数据的比较都需要先反序列化,对性能影响极大。 RawComparator的作用就不言而喻,能够直接使用序列化后的字节流进行比较,不需要反序列化就能够完成排序功能。 $$$ hadoop使用的是jdk 阅读全文
posted @ 2016-07-23 12:16 Ivan.Jiang 阅读(869) 评论(0) 推荐(0) 编辑