2012年6月5日
摘要: 1、 概述小文件是指文件size小于HDFS上block大小的文件。这样的文件会给hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何 block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间(见参考资 料[1][4][5])。这样namenode内存容量严重制约了集群的扩展。 其次,访问大量小文件速度远远小于访问几个大文件。HDFS最初是为流式访问大文件开发的,如果访问大量小文件,需要不断的从一个datano 阅读全文
posted @ 2012-06-05 01:04 邹- 阅读(258) 评论(0) 推荐(0) 编辑
摘要: 摘自:http://hmilyzhangl.iteye.com/blog/1407214一.崩溃原因搭建的是一个hadoop测试集群,所以将数据备份参数设置为dfs.replication=1,这样如果有一台datanode损坏的话,数据 就会失去。但不幸的是,刚好就有一台机器由于负载过高,导致数据操坏。进而后面需要重启整个hadoop集群,重启后启动namenode启动不了。报如 下错误:Java代码 FSNamesysteminitializationfailedsaveLeasesfoundpath/tmp/xxx/aaa.txtbutnomatchingentryinnamespac. 阅读全文
posted @ 2012-06-05 00:45 邹- 阅读(784) 评论(0) 推荐(0) 编辑