摘要:
1、果断先上结论 1.如果想增加map个数,则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数,则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件,依然想减少map个数,则需要将小文件merger为大文件,然后使用准则2。 阅读全文
摘要:
1、概念 2、Split机制 3、MR Shuffle过程 4、MR中REDUCE与MAP写作过程 5、MR全貌 阅读全文
摘要:
参考资料: Eclipse关联GitHub实现版本控制:http://jingyan.baidu.com/article/64d05a0262f013de55f73bcc.html http://www.cnblogs.com/yc-755909659/p/3753626.html 冲突解决方案:h 阅读全文
摘要:
1、概念 2、Hadoop默认分组机制--所有的Key分到一个组,一个Reduce任务处理 3、代码示例 FlowBean FlowGroup FlowGroupPartition 阅读全文
摘要:
作者:千岁大王链接:https://www.zhihu.com/question/27974418/answer/39845635来源:知乎著作权归作者所有,转载请联系作者获得授权。 Google内部早就开始玩大数据,发现时代跟不上他们的节奏,担心技术后继无人,于是发表了三篇论文(搜下gfs big 阅读全文
摘要:
1、概念 2、代码示例 FlowSort FlowBean LineException 阅读全文
摘要:
1、代码示例 2、参考资料: Java异常处理:http://fluagen.blog.51cto.com/146595/304197 Hadoop获取出错行:http://www.aboutyun.com/thread-13962-1-1.html http://blog.csdn.net/wuz 阅读全文
摘要:
1、概念 2、参考资料 提高hadoop的mapreduce job效率笔记之二(尽量的用Combiner) :http://sishuo(k).com/forum/blogPost/list/5829.html Hadoop学习笔记—8.Combiner与自定义Combiner:http://ww 阅读全文