数据倾斜通用处理方式

使用“二次聚合”的思想

1.离线数据

Hive 、MR、 SPARK

1.1 场景描述

以MR为例,目前有p1 和 p2 两个分区, p1分区内有1亿条数据,key值为a ,p2分区内有一万条数据,key值为b

1.2 解决思路

SQL为例
首先,为key加上随机数,进行一次分区, ( select 聚合函数,如count* from group by key+随机数 ) t1 然后在上面SQL的基础上进行二次分区 select 聚合函数 from t1 group by key去掉随机数

2.实时数据

使用Flink直接调用rebalance()算子或rescale()算子
rebalance算子会将各个分区内的数据打散再分区,rescale算子功能和rebalance算子相同,但效率更高


__EOF__

本文作者Later
本文链接https://www.cnblogs.com/traveller-hzq/p/15866333.html
关于博主:评论和私信会在第一时间回复。或者直接私信我。
版权声明:本博客所有文章除特别声明外,均采用 BY-NC-SA 许可协议。转载请注明出处!
声援博主:如果您觉得文章对您有帮助,可以点击文章右下角推荐一下。您的鼓励是博主的最大动力!
posted @   Later^^  阅读(81)  评论(1编辑  收藏  举报
相关博文:
阅读排行:
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 25岁的心里话
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列01:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
点击右上角即可分享
微信分享提示