文件压缩
1、为什么对文件进行压缩?
在Hadoop中,文件需要存储、传输、读取磁盘、写入磁盘等等操作,而文件的大小,直接决定了这些这些操作的速度。
2、压缩的好处和坏处
(1)好处:
减少存储磁盘空间
降低IO(网络的IO和磁盘的IO)
加快数据在磁盘和网络中的传输速度,从而提高系统的处理速度
(2)坏处:
由于使用数据时,需要先将数据解压,加重CPU负荷。而且压缩的越狠,耗费的时间越多。
3、mapreduce过程涉及到的文件压缩:
1、第一次传入压缩文件,应选用可以切片的压缩方式,否则整个文件将只有一个Map执行。
Use Compressd Map Input:从HDFS中读取文件进行Mapreuce作业,如果数据很大,可以使用压缩并且选择支持分片的压缩方式(Bzip2,LZO),可以实现并行处理,提高效率,减少磁盘读取时间,同时选择合适的存储格式例如Sequence Files,RC,ORC等。
2、第二次压缩应选择压缩解压速度快的压缩方式,生产中,Map阶段数据落盘通常使用snappy压缩格式(快速压缩解压)。
Compress Intermediate Data:Map输出作为Reducer的输入,需要经过shuffle这一过程,需要把数据读取到一个环形缓冲区,然后读取到本地磁盘,所以选择压缩可以减少了存储文件所占空间,提升了数据传输速率,建议使用压缩速度快的压缩方式,例如Snappy和LZO。
3、第三次压缩有两种场景分别是:
一、当输出文件为下一个job的输入,选择可切分的压缩方式例如:BZip2。
二、当输出文件直接存到HDFS,作为归档,选择压缩比高的压缩方式。reduce阶段数据落盘通常使用gzip或bzip2进行压缩(减少磁盘使用)。Compress Reducer Output:进行归档处理或者链接Mapreduce的工作(该作业的输出作为下个作业的输入),压缩可以减少了存储文件所占空间,提升了数据传输速率,如果作为归档处理,可以采用高的压缩比(Gzip,Bzip2),如果作为下个作业的输入,考虑是否要分片进行选择。
参考博客,各种压缩方式的对比:https://blog.csdn.net/liweihope/article/details/89672763
压缩方式为 Snappy,特点速度快,缺点无法切分