邹- - 博客园

2012年6月5日

摘要： 1、概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何 block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namenode大约需要2G空间。如果存储1亿个文件，则namenode需要20G空间（见参考资料[1][4][5]）。这样namenode内存容量严重制约了集群的扩展。其次，访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的，如果访问大量小文件，需要不断的从一个datano 阅读全文

posted @ 2012-06-05 01:04 邹- 阅读(280) 评论(0) 推荐(0)

hadoop恢复记录-转载

摘要：摘自：http://hmilyzhangl.iteye.com/blog/1407214一.崩溃原因搭建的是一个hadoop测试集群，所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话，数据就会失去。但不幸的是，刚好就有一台机器由于负载过高，导致数据操坏。进而后面需要重启整个hadoop集群,重启后启动namenode启动不了。报如下错误:Java代码 FSNamesysteminitializationfailedsaveLeasesfoundpath/tmp/xxx/aaa.txtbutnomatchingentryinnamespac. 阅读全文

posted @ 2012-06-05 00:45 邹- 阅读(809) 评论(0) 推荐(0)

2012年5月10日

RedHat9.0下搭建Hadoop引擎

摘要： RedHat9.0下搭建Hadoop引擎阅读全文

posted @ 2012-05-10 15:15 邹- 阅读(308) 评论(0) 推荐(0)

2012年5月7日

RedHat9 安装JAVA JDK6

摘要： RedHat9 安装JAVA JDK6 阅读全文

posted @ 2012-05-07 13:19 邹- 阅读(222) 评论(0) 推荐(0)

2012年4月26日

技术相关资料链接

摘要：技术资料链接地址备忘阅读全文