这是mr的一种优化策略,通过压缩编码对mapper或者reducer的输出进行压缩,以减少磁盘io,提高mr运行速度(但也相应增加了cpu运算负担)
特性:
1.mr支持将map输出的结果或者reduce输出的结果进行压缩,以减少网络IO或最终输出数据的体积。
2.压缩特性使用得当能提高性能,但运用不当也可降低性能。
3.基本原则:
运算密集型的job,少用压缩
io密集型的job,多用压缩
也可以设置map端的输出压缩。