lzo

Flume

agent1.sinks.k1.type = hdfs
agent1.sinks.k1.hdfs.codeC = lzo 

MapReduce 


conf.set("mapreduce.output.fileoutputformat.compress", "true");
conf.set("mapreduce.output.fileoutputformat.compress.codec", "com.hadoop.compression.lzo.LzopCodec");


Hive

use db1;
drop table if exists tb1;
CREATE TABLE tb1()
PARTITIONED BY(xxx string ,yyy string)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
STORED AS
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

Hadoop文件格式

1-非结构化文本数据可分片压缩

2-结构化文本数据

3-二进制数据

Flume的接收器

HDFS HBase IRC ElasticSearch

如果希望HDFS接收器写入的是压缩文件，则需要制定压缩方式，其通过设置hdfs.codeC设置 gzip bzip2 lzo snappy。

posted @ 2017-10-26 16:45 papering 阅读(359) 评论(0) 收藏举报

刷新页面返回顶部