hadoop压缩和解压

  最近有一个hadoop集群上的备份需求。源文件有几百G,如果直接复制太占用磁盘空间。将文件从hadoop集群下载到本地,压缩之后再上传到hadoop则太耗时间。于是想到能否直接在HDFS文件系统上进行压缩和解压。

  经过粗略的了解,使用pig脚本可轻松的实现以上目标。

  压缩

set output.compression.enabled true;
set output.compression.codec org.apache.hadoop.io.compress.GzipCodec;

uncompress = load '$uncompress';
store uncompress into '$compress';

  解压

compress = load '$compress';
set output.compression.enabled false;
store compress into '$uncompress';

 

posted @ 2016-10-11 19:01  后端技术小屋  阅读(705)  评论(0编辑  收藏  举报