SequenceFile

org.apache.hadoop.io包里的SequenceFile类提供了高效的二进制文件格式，它经常用于MapReduce作业的输出。尤其是当作业的输出被当做另一个作业的输入时。SequenceFile有如下几个优点：

SequenceFile是hadoop的一种文件格式，存储key-value对，key的类型要实现WriteableComparable，value的类型要实现writable

‹ 作为二进制文件，它们本质上比文本文件更为紧凑

‹ SequenceFile支持不同层面的可选压缩，也就是说，可以对每条记录或整个split进行压缩

‹ 该文件可被并行切分和处理

最后一个特性很重要，大多数二进制格式——尤其是压缩或加密文件——是无法切分的，必须以单独的线性数据流的形式读取。使用这种无法切分的文件作为MapReduce作业的输入，意味着需要使用一个mapper处理整个文件，造成潜在的巨大的性能损失。在此情况下，最好使用可切分的格式，如SequenceFile，或者在无法避免接收其它格式文件的情况下，执行预处理步骤将其转换成可切分的格式。这需要权衡利弊，因为文件格式转换也需要一定的时间，但在很多情况下，尤其是处理复杂的map任务时，使用可切分格式所节省的时间将超过文件格式转换的时间。

posted @ 2014-05-05 12:26 baoendemao 阅读(326) 评论(0) 编辑收藏举报

刷新页面返回顶部

baoendemao

SequenceFile

公告