hadoop 使用 streaming 读入 sequence file 注意的地方

读入的时候, 和期待的原始文件还是不一样的。 

当我们使用 hadoop fs -text 打印 sequence file的时候, 会发现打印的格式是:num"\t"data  这样的格式。

在使用 streaming 读入  sequence file 设置:   -inputformat org.apache.hadoop.mapred.SequenceFileAsTextInputFormat的时候, 读入的数据的格式也是这样的。 

在使用的时候, 需要注意一下。 

posted @ 2012-10-06 11:00  nosaferyao  阅读(465)  评论(0编辑  收藏  举报