lzo
Flume agent1.sinks.k1.type = hdfs agent1.sinks.k1.hdfs.codeC = lzo MapReduce conf.set("mapreduce.output.fileoutputformat.compress", "true"); conf.set("mapreduce.output.fileoutputformat.compress.codec", "com.hadoop.compression.lzo.LzopCodec"); Hive use db1; drop table if exists tb1; CREATE TABLE tb1() PARTITIONED BY(xxx string ,yyy string) ROW FORMAT DELIMITED FIELDS TERMINATED BY '\t' STORED AS INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat' OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'
Hadoop文件格式
1-非结构化文本数据 可分片压缩
2-结构化文本数据
3-二进制数据
Flume的接收器
HDFS HBase IRC ElasticSearch
如果希望HDFS接收器写入的是压缩文件,则需要制定压缩方式,其通过设置hdfs.codeC设置 gzip bzip2 lzo snappy。