摘要: 参考:http://www.cnblogs.com/ggjucheng/archive/2013/01/03/2842860.html 在做Shuffle阶段的优化过程中,遇到了数据倾斜的问题,造成了对一些情况下优化效果不明显。主要是因为在Job完成后的所得到的Counters是整个Job的总和,优 阅读全文
posted @ 2017-06-23 16:37 Kinginme 阅读(5729) 评论(0) 推荐(0) 编辑
摘要: 参考:http://www.jianshu.com/p/5d292a9a8c86# Secondary NameNode:它究竟有什么作用? 在Hadoop中,有一些命名不好的模块,Secondary NameNode是其中之一。从它的名字上看,它给人的感觉就像是NameNode的备份。但它实际上却 阅读全文
posted @ 2017-06-23 10:40 Kinginme 阅读(418) 评论(0) 推荐(0) 编辑
摘要: (1) HDFS主要是用于做什么的? HDFS(Hadoop Distributed File System)是Hadoop项目的核心子项目,是分布式计算中数据存储管理的基础,是基于流数据模式访问和处理超大文件的需求而开发的,可以运行于廉价的商用服务器上。它所具有的高容错、高可靠性、高可扩展性、高获 阅读全文
posted @ 2017-06-23 10:37 Kinginme 阅读(275) 评论(0) 推荐(0) 编辑