hive任务处理小文件合并的参数配置

1.小文件产生

使用hive过程中经常会遇到小文件问题：

在执行插入数据操作过程中，可能会产生小文件（map输入）；
map-only作业，可能会产生小文件（map输出）；
map-reduce作业，每个reduce输出一个文件，可能产生小文件（reduce输出）。

2.小文件影响

hdfs存储：存储过多小文件会产生大量元数据，会增加NameNode占有的空间，影响集群健康和拓展
hive任务：默认情况下，hive输入端的处理每个小文件会启用一个map，一个map启用一个JVM去执行，启用map和JVM过程资源占用比例相对提高，影响性能。

3.小文件处理参数设置

3.1输入端：如果执行任务前，存在小文件，在执行map前进行小文件合并，通过设置参数

设置：每个Map最大输入大小，这个值决定了合并后文件的数量；

set mapred.max.split.size=256000000;

设置：一个节点上split的至少的大小，这个值决定了多个DataNode上的文件是否需要合并；

set mapred.min.split.size.per.node=100000000;

设置：一个交换机下split的至少的大小，这个值决定了多个交换机上的文件是否需要合并；

set mapred.min.split.size.per.rack=100000000;

设置：输入端map合并小文件。

set hive.input.format=org.apache.hadoop.hive.ql.io.CombineHiveInputFormat;

3.2输出端：通过输出端小文件合并，减少产生的小文件数量

设置：启用小文件合并 - Map-Only作业，默认true；

set hive.merge.mapfiles=true;

设置：启用小文件合并 - Map-Reduce作业，默认false；

set hive.merge.mapredfiles=true;

设置：合并后所需每个文件的大小，默认256MB;这个数值是个约数，合并后文件大小会有上下浮动；

hive.merge.size.per.task=268534456；

设置：小文件平均大小合并阈值，默认16MB;

set hive.merge.smallfiles.avgsize=16777216;

设置：启用小文件合并 - Spark 作业，默认false;

set hive.merge.sparkfiles=true;

设置：启用小文件合并 - Tez 作业，默认false;

set hive.merge.tezfiles=true;

posted @ 2021-11-23 14:45 民宿阅读(915) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

公告

昵称：民宿
园龄： 3年10个月
粉丝： 78
关注： 2

+加关注

2025年3月

日

一

二

三

四

五

六

民宿

您好，我叫李玉民，点点关注交个朋友吧

hive任务处理小文件合并的参数配置

1.小文件产生

2.小文件影响

3.小文件处理参数设置

3.1输入端：如果执行任务前，存在小文件，在执行map前进行小文件合并，通过设置参数

3.2输出端：通过输出端小文件合并，减少产生的小文件数量

公告

随笔分类

民宿

您好，我叫李玉民，点点关注交个朋友吧

hive任务 处理小文件合并的参数配置

1.小文件产生

2.小文件影响

3.小文件处理参数设置

3.1输入端：如果执行任务前，存在小文件，在执行map前进行小文件合并，通过设置参数

3.2输出端：通过输出端小文件合并，减少产生的小文件数量

公告

随笔分类

hive任务处理小文件合并的参数配置