Hive使用SequenceFile存储数据
SequenceFile是使用二进制保存数据,是可以压缩的,并且压缩后的数据可被分割,可以供mapreduce处理。
下面的实例使用SequenceFile保存Hive表的数据,并且使用了压缩。
set hive.exec.compress.output=true; #压缩mapreduce输出数据
set mapreduce.output.fileoutputformat.compress.codec=org.apache.hadoop.io.compress.GzipCodec; #设置压缩算法
set mapreduce.output.fileoutputformat.compress.type=BLOCK; #块级压缩