会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
猫七的blog
https://www.cnblogs.com/liuguangshou123/
博客园
首页
新随笔
联系
订阅
管理
2022年1月27日
谈工作中遇到的数据倾斜问题
摘要: 问题呈现: 在hive中写SQL生成的MapReduce程序,卡了12个小时。 问题原因: 经过我的一番调查,认为是产生了数据倾斜,我的主表需要4个表一块union all,所以数据量还是很多的。 collect_list输出一个数组,中间结果会放到内存中,所以如果collect_list聚合太多数
阅读全文
posted @ 2022-01-27 14:39 猫七的blog
阅读(159)
评论(0)
推荐(0)
编辑
公告