Hadoop（十九）MapReduce OutputFormat 数据压缩

OutputFormat

OutputFormat是MapReduce输出的基类，所有实现MapReduce输出都实现了OutputFormat接口
几种常见的OutputFormat实现类：NullOutputFormat、MapFileOutputFormat、TextOutputFormat等

自定义OutputFormat

应用场景：输出数据到MySQL/HBase/Elasticsearch等存储框架中
步骤：自定义一个类继承FileOutputFormat —> 改写RecordWriter，具体改写输出数据的方法write()

数据压缩

一、概述

优点：减少磁盘IO和存储空间
缺点：增加CPU开销
压缩原则：运算密集型的作业少用压缩；IO密集型的作业多用压缩

二、MR支持的压缩编码

压缩格式	是否Hadoop自带	算法	文件扩展名	是否可切片	换成压缩格式后，原来的程序是否需要修改	优点	缺点
DEFLATE	是，直接使用	DEFLATE	.deflate	否	和文本处理一样，不需要修改
Gzip	是，直接使用	DEFLATE	.gz	否	和文本处理一样，不需要修改	压缩率比较高	不支持Split；压缩/解压速度一般
bzip2	是，直接使用	bzip2	.bz2	是	和文本处理一样，不需要修改	压缩率高；支持Split	压缩/解压速度慢
LZO	否，需要安装	LZO	.lzo	是	需要建索引，还需要指定输入格式	压缩/解压速度比较快；支持Split	压缩率一般；想支持切片需要额外创建索引
Snappy	是，直接使用	Snappy	.Snappy	否	和文本处理一样，不需要修改	压缩和解压缩速度快	不支持Split；压缩率一般

压缩方式选择时重点考虑：压缩/解压缩速度、压缩率（压缩后存储大小）、压缩后是否可以支持切片
压缩可以在MapReduce作用的任意阶段启用

posted @ 2024-09-19 11:00 一年都在冬眠阅读(26) 评论(0) 编辑收藏举报

努力加载评论中...

刷新页面返回顶部

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步