第十章 Hive调优【group by 开启map端聚合】

1. 对group by的调优  (开启map端聚合)
    说明 : 默认情况下 Map阶段相同的key 会被发送到同一个reduce中去聚合
          当某个key数据量过大时,就造成了数据倾斜

    什么是map端聚合?
          并不是所有聚合操作,都需要在reduce端聚合,可以在map端先将部分数据,进行聚合,最终数据在reduce聚合

    参数设置

        -- 是否开启map的聚合(默认为true)
        set hive.map.aggr=true;
        -- 在 Map 端进行聚合操作的条目数目
        set hive.groupby.mapaggr.checkinterval=100000;
        -- 发生数据倾斜时,进行负载均衡
        set hive.groupby.skewindata=true;
            说明 :
                当选项设定为 true,生成的查询计划会有两个 MR Job。
                第一个 MR Job 中,Map 的输出结果(outKey) 会随机分布到 Reduce 中,
                     每个 Reduce 做部分聚合操作,并输出结果
　　　　　　　　　　　　 这样处理好处是 相同的 Group By Key 有可能被分发到不同的 Reduce 中,从而达到负载均衡的目的
                第二 个 MR Job 再根据预处理的数据结果 
                     按照 Group By Key 分布到 Reduce 中(这个过程可以保证 相同的 Group By Key 被分布到同一个 Reduce 中),最后完成最终的聚合操作

    测试
        INFO  : Hadoop job information for Stage-1: number of mappers: 1; number of reducers: 1
        开启map端聚合 : 748 rows selected (31.345 seconds)
        关闭map端聚合 : 748 rows selected (38.138 seconds)

posted @ 2022-02-11 10:59 学而不思则罔！阅读(1719) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· 第十章 Hive调优【小文件合并】

· 第十章 Hive调优【合理设置Reduce数】

· 小白的大数据入门路——Hive学习笔记

· HIVE面试题

· 史上最全Hive面试题，高薪必备，架构必备

公告

昵称：学而不思则罔！
园龄： 4年10个月
粉丝： 11
关注： 0

+加关注

2025年3月

日

一

二

三

四

五

六

私人小院

第十章 Hive调优【group by 开启map端聚合】

公告

搜索

常用链接

随笔分类

随笔档案

linux运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论

私人小院

第十章 Hive调优 【group by 开启map端聚合】

公告

搜索

常用链接

随笔分类

随笔档案

linux运维

阅读排行榜

评论排行榜

推荐排行榜

最新评论

第十章 Hive调优【group by 开启map端聚合】