随笔分类 - HDFS
摘要:一、引言: Hadoop的HDFS集群非常容易出现机器与机器之间磁盘利用率不平衡的情况,比如集群中添加新的数据节点,节点与节点之间磁盘大小不一样等等。当hdfs出现不平衡状况的时候,将引发很多问题,比如MR程序无法很好地利用本地计算的优势,机器之间无法达到更好的网络带宽使用率,机器磁盘无法利用等等。
阅读全文
摘要:一次不经意发现Hadoop的系统态CPU使用率很高,然后百度一下居然是个已知问题。 RHEL6优化了内存申请的效率,而且在某些场景下对KVM的性能有明显提升:http://www.Linux-kvm.org/wiki/images/9/9e/2010-forum-thp.pdf。 而Hadoop是个
阅读全文
摘要:首先自己的 blog 好久没有写技术相关的东西了,今天又动笔了,好高兴!然后转载请注明出处。最后开始正题: 原文:Dremel made simple with Parquet | Twitter Engineering Blog Google 对于传说中3秒查询 1 PB 数据的 Dremel,有
阅读全文
摘要:转自:http://www.2cto.com/os/201605/510489.html hadoop1的核心组成是两部分,即HDFS和MapReduce。在hadoop2中变为HDFS和Yarn。新的HDFS中的NameNode不再是只有一个了,可以有多个(目前只支持2个)。每一个都有相同的职能。
阅读全文
摘要:Hadoop中的NameNode好比是人的心脏,非常重要,绝对不可以停止工作。在hadoop1时代,只有一个NameNode。如果该NameNode数据丢失或者不能工作,那么整个集群就不能恢复了。这是hadoop1中的单点问题,也是hadoop1不可靠的表现。hadoop2就解决了这个问题。 had
阅读全文
摘要:HDFS High Availability Using the Quorum Journal Manager Purpose Note: Using the Quorum Journal Manager or Conventional Shared Storage Background Archi
阅读全文
摘要:版权声明:欢迎大家转载,转载请注明出处blog.csdn.net/tantexian。 版权声明:欢迎大家转载,转载请注明出处blog.csdn.net/tantexian。 目录(?)[+] 目录(?)[+] Namenode HA原理详解 社区hadoop2.2.0 release版本开始支持N
阅读全文
摘要:转自:http://www.cnblogs.com/justinzhang/p/4983673.html 介绍了如何将Maven依赖的包一起打包进jar包。使用maven-assembly打成jar后,将这个jar提供给其他工程引用的时候,报出如下错误: 但是,在没有打成jar包的工程中,是可以正常
阅读全文