hive任务 处理小文件合并的参数配置
1.小文件产生
使用hive过程中经常会遇到小文件问题:
- 在执行插入数据操作过程中,可能会产生小文件(map输入);
- map-only作业,可能会产生小文件(map输出);
- map-reduce作业,每个reduce输出一个文件,可能产生小文件(reduce输出)。
2.小文件影响
- hdfs存储:存储过多小文件会产生大量元数据,会增加NameNode占有的空间,影响集群健康和拓展
- hive任务:默认情况下,hive输入端的处理每个小文件会启用一个map,一个map启用一个JVM去执行,启用map和JVM过程资源占用比例相对提高,影响性能。
3.小文件处理参数设置
3.1输入端:如果执行任务前,存在小文件,在执行map前进行小文件合并,通过设置参数
设置:每个Map最大输入大小,这个值决定了合并后文件的数量;
set mapred.max.split.size=256000000;
设置:一个节点上split的至少的大小,这个值决定了多个DataNode上的文件是否需要合并;
set mapred.min.split.size.per.node=100000000;
设置:一个交换机下split的至少的大小,这个值决定了多个交换机上的文件是否需要合并;
set mapred.min.split.size.per.rack=100000000;
设置:输入端map合并小文件。
set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;
3.2输出端:通过输出端小文件合并,减少产生的小文件数量
设置:启用小文件合并 - Map-Only作业,默认true;
set hive.merge.mapfiles=true;
设置:启用小文件合并 - Map-Reduce作业,默认false;
set hive.merge.mapredfiles=true;
设置:合并后所需每个文件的大小,默认256MB;这个数值是个约数,合并后文件大小会有上下浮动;
hive.merge.size.per.task=268534456;
设置:小文件平均大小合并阈值,默认16MB;
set hive.merge.smallfiles.avgsize=16777216;
设置:启用小文件合并 - Spark 作业,默认false;
set hive.merge.sparkfiles=true;
设置:启用小文件合并 - Tez 作业,默认false;
set hive.merge.tezfiles=true;
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY