hadoop 使用 streaming 读入 sequence file 注意的地方
读入的时候, 和期待的原始文件还是不一样的。
当我们使用 hadoop fs -text 打印 sequence file的时候, 会发现打印的格式是:num"\t"data 这样的格式。
在使用 streaming 读入 sequence file 设置: -inputformat org.apache.hadoop.mapred.SequenceFileAsTextInputFormat的时候, 读入的数据的格式也是这样的。
在使用的时候, 需要注意一下。