lzo

 

 

Flume

agent1.sinks.k1.type = hdfs
agent1.sinks.k1.hdfs.codeC = lzo 

MapReduce 


conf.set("mapreduce.output.fileoutputformat.compress", "true");
conf.set("mapreduce.output.fileoutputformat.compress.codec", "com.hadoop.compression.lzo.LzopCodec");


Hive

use db1;
drop table if exists tb1;
CREATE TABLE tb1()
PARTITIONED BY(xxx string ,yyy string)
ROW FORMAT DELIMITED 
FIELDS TERMINATED BY '\t'
STORED AS
INPUTFORMAT 'com.hadoop.mapred.DeprecatedLzoTextInputFormat'
OUTPUTFORMAT 'org.apache.hadoop.hive.ql.io.HiveIgnoreKeyTextOutputFormat'

 

 

Hadoop文件格式

1-非结构化文本数据  可分片压缩

2-结构化文本数据

3-二进制数据

 

Flume的接收器

HDFS HBase IRC ElasticSearch

 

如果希望HDFS接收器写入的是压缩文件,则需要制定压缩方式,其通过设置hdfs.codeC设置 gzip bzip2  lzo snappy。

 

posted @ 2017-10-26 16:45  papering  阅读(340)  评论(0编辑  收藏  举报