摘要: 1、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。 阅读全文
posted @ 2016-09-07 18:17 junneyang 阅读(11606) 评论(1) 推荐(3) 编辑
摘要: 1、概念 2、Split机制 3、MR Shuffle过程 4、MR中REDUCE与MAP写作过程 5、MR全貌 阅读全文
posted @ 2016-09-07 18:03 junneyang 阅读(4504) 评论(0) 推荐(1) 编辑
摘要: 参考资料: Eclipse关联GitHub实现版本控制:http://jingyan.baidu.com/article/64d05a0262f013de55f73bcc.html http://www.cnblogs.com/yc-755909659/p/3753626.html 冲突解决方案:h 阅读全文
posted @ 2016-09-07 14:54 junneyang 阅读(204) 评论(0) 推荐(0) 编辑
摘要: 1、概念 2、Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3、代码示例 FlowBean FlowGroup FlowGroupPartition 阅读全文
posted @ 2016-09-07 14:01 junneyang 阅读(2208) 评论(0) 推荐(0) 编辑
摘要: 作者:千岁大王链接:https://www.zhihu.com/question/27974418/answer/39845635来源:知乎著作权归作者所有,转载请联系作者获得授权。 Google内部早就开始玩大数据,发现时代跟不上他们的节奏,担心技术后继无人,于是发表了三篇论文(搜下gfs big 阅读全文
posted @ 2016-09-07 11:54 junneyang 阅读(348) 评论(0) 推荐(0) 编辑
摘要: 1、概念 2、代码示例 FlowSort FlowBean LineException 阅读全文
posted @ 2016-09-07 11:24 junneyang 阅读(1197) 评论(0) 推荐(0) 编辑
摘要: 1、代码示例 2、参考资料: Java异常处理:http://fluagen.blog.51cto.com/146595/304197 Hadoop获取出错行:http://www.aboutyun.com/thread-13962-1-1.html http://blog.csdn.net/wuz 阅读全文
posted @ 2016-09-07 11:21 junneyang 阅读(646) 评论(0) 推荐(0) 编辑
摘要: 1、概念 2、参考资料 提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner) :http://sishuo(k).com/forum/blogPost/list/5829.html Hadoop学习笔记—8.Combiner与自定义Combiner:http://ww 阅读全文
posted @ 2016-09-07 11:17 junneyang 阅读(861) 评论(0) 推荐(0) 编辑