hive 数据倾斜

造成hive表数据倾斜的原因归根结底是计算集的key值分布不均匀

而造成key值分布不均匀的原因有很多：

1.业务本身的特性

2.建表时考虑不周

3.某些sql语句本身就有数据倾斜

1）join时表较小且key集中，使得分发到某一个或几个reduce上的数据远高于平均值

2）大表与大表join，分桶的判断字段或空值过多，而这些控制都是由一个reduce处理的

3）groupby时维度过小，某值得数量过多，处理某值的reduce很耗时

4）conut distinct时某特殊值过多，处理比特殊值reduce耗时

解决方案：1)hive基础调优(参考我的博文：https://blog.csdn.net/wx740851326/article/details/80915867)

2）合理设计表结果，使得key值均匀分布

3）groupby时增加维度，使数据分散开

4）null值单独处理

posted @ 2022-07-27 21:09 feitiandamo 阅读(44) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· hive知识点汇总

· hive调优

· 【Hive】数据倾斜原因及解决方法汇总

· hive数据倾斜处理(转)

· hive优化数据倾斜

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配，妙~啊~

昵称： feitiandamo
园龄： 2年7个月
粉丝： 1
关注： 0

2025年3月

日

一

二

三

四

五

六

feitiandamo