2012年11月9日

SequenceFile介绍

摘要: SequeceFile是Hadoop API提供的一种二进制文件支持。这种二进制文件直接将<key, value>对序列化到文件中。一般对小文件可以使用这种文件合并,即将文件名作为key,文件内容作为value序列化到大文件中。这种文件格式有以下好处:1)支持压缩,且可定制为基于Record或Block压缩(Block级压缩性能较优) 2)本地化任务支持:因为文件可以被切分,因此MapReduce... 阅读全文

posted @ 2012-11-09 13:00 蓝风笨笨 阅读(610) 评论(0) 推荐(0) 编辑

基于Hadoop Sequencefile的小文件解决方案

摘要: 一、 概述 小文件是指文件size小于HDFS上block大小的文件。这样的文件会给Hadoop的扩展性和性能带来严重问题。首先,在HDFS中,任何block,文件或者目录在内存中均以对象的形式存储,每个对象约占150byte,如果有1000 0000个小文件,每个文件占用一个block,则namenode大约需要2G空间。如果存储1亿个文件,则namenode需要20G空间。这样namenode... 阅读全文

posted @ 2012-11-09 12:18 蓝风笨笨 阅读(1721) 评论(0) 推荐(0) 编辑

导航