随笔档案「2016年9月7日」：【Hadoop】三句话告诉你 mapreduce 中MAP进程的数量怎么控制？ ... - junneyang

2016年9月7日

摘要： 1、果断先上结论 1.如果想增加map个数，则设置mapred.map.tasks 为一个较大的值。 2.如果想减小map个数，则设置mapred.min.split.size 为一个较大的值。 3.如果输入中有很多小文件，依然想减少map个数，则需要将小文件merger为大文件，然后使用准则2。阅读全文

posted @ 2016-09-07 18:17 junneyang 阅读(11711) 评论(1) 推荐(3)

【Hadoop】MR 切片机制 & MR全流程

摘要： 1、概念 2、Split机制 3、MR Shuffle过程 4、MR中REDUCE与MAP写作过程 5、MR全貌阅读全文

posted @ 2016-09-07 18:03 junneyang 阅读(4545) 评论(0) 推荐(1)

【Eclipse】Eclipse 中使用 Git 方法

摘要：参考资料： Eclipse关联GitHub实现版本控制：http://jingyan.baidu.com/article/64d05a0262f013de55f73bcc.html http://www.cnblogs.com/yc-755909659/p/3753626.html 冲突解决方案：h 阅读全文

posted @ 2016-09-07 14:54 junneyang 阅读(219) 评论(0) 推荐(0)

【Hadoop】Hadoop MR 自定义分组 Partition机制

摘要： 1、概念 2、Hadoop默认分组机制--所有的Key分到一个组，一个Reduce任务处理 3、代码示例 FlowBean FlowGroup FlowGroupPartition 阅读全文

posted @ 2016-09-07 14:01 junneyang 阅读(2246) 评论(0) 推荐(0)

【Hadoop】如何形象描述大数据生态？

摘要：作者：千岁大王链接：https://www.zhihu.com/question/27974418/answer/39845635来源：知乎著作权归作者所有，转载请联系作者获得授权。 Google内部早就开始玩大数据，发现时代跟不上他们的节奏，担心技术后继无人，于是发表了三篇论文（搜下gfs big 阅读全文

posted @ 2016-09-07 11:54 junneyang 阅读(367) 评论(0) 推荐(0)

【Hadoop】Hadoop MR 自定义排序

摘要： 1、概念 2、代码示例 FlowSort FlowBean LineException 阅读全文

posted @ 2016-09-07 11:24 junneyang 阅读(1227) 评论(0) 推荐(0)

【Hadoop】Hadoop MR异常处理

摘要： 1、代码示例 2、参考资料： Java异常处理：http://fluagen.blog.51cto.com/146595/304197 Hadoop获取出错行：http://www.aboutyun.com/thread-13962-1-1.html http://blog.csdn.net/wuz 阅读全文

posted @ 2016-09-07 11:21 junneyang 阅读(661) 评论(0) 推荐(0)

【Hadoop】Hadoop MR 性能优化 Combiner机制

摘要： 1、概念 2、参考资料提高hadoop的mapreduce job效率笔记之二（尽量的用Combiner）：http://sishuo(k).com/forum/blogPost/list/5829.html Hadoop学习笔记—8.Combiner与自定义Combiner：http://ww 阅读全文

posted @ 2016-09-07 11:17 junneyang 阅读(882) 评论(0) 推荐(0)

junneyang 的博客

公告