2012 年 6月 5 日随笔档案 - 邹-

2012年6月5日

摘要： 1、概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先，在HDFS中，任何 block，文件或者目录在内存中均以对象的形式存储，每个对象约占150byte，如果有1000 0000个小文件，每个文件占用一个block，则namenode大约需要2G空间。如果存储1亿个文件，则namenode需要20G空间（见参考资料[1][4][5]）。这样namenode内存容量严重制约了集群的扩展。其次，访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的，如果访问大量小文件，需要不断的从一个datano 阅读全文

posted @ 2012-06-05 01:04 邹- 阅读(258) 评论(0) 推荐(0) 编辑

hadoop恢复记录-转载

摘要：摘自：http://hmilyzhangl.iteye.com/blog/1407214一.崩溃原因搭建的是一个hadoop测试集群，所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话，数据就会失去。但不幸的是，刚好就有一台机器由于负载过高，导致数据操坏。进而后面需要重启整个hadoop集群,重启后启动namenode启动不了。报如下错误:Java代码 FSNamesysteminitializationfailedsaveLeasesfoundpath/tmp/xxx/aaa.txtbutnomatchingentryinnamespac. 阅读全文

posted @ 2012-06-05 00:45 邹- 阅读(784) 评论(0) 推荐(0) 编辑