hadoop压缩和解压
最近有一个hadoop集群上的备份需求。源文件有几百G,如果直接复制太占用磁盘空间。将文件从hadoop集群下载到本地,压缩之后再上传到hadoop则太耗时间。于是想到能否直接在HDFS文件系统上进行压缩和解压。
经过粗略的了解,使用pig脚本可轻松的实现以上目标。
压缩
set output.compression.enabled true; set output.compression.codec org.apache.hadoop.io.compress.GzipCodec; uncompress = load '$uncompress'; store uncompress into '$compress';
解压
compress = load '$compress'; set output.compression.enabled false; store compress into '$uncompress';