会员
周边
众包
新闻
博问
闪存
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
wwcom123
博客园
首页
新随笔
联系
订阅
管理
2019年3月22日
【Spark调优】聚合操作数据倾斜解决方案
摘要: 【使用场景】 对RDD执行reduceByKey等聚合类shuffle算子或者在Spark SQL中使用group by语句进行分组聚合时,经过sample或日志、界面定位,发生了数据倾斜。 【解决方案】 局部聚合+全局聚合,进行两阶段聚合。具体为: 将原本相同的key通过附加随机前缀的方式,变成多
阅读全文
posted @ 2019-03-22 23:46 wwcom123
阅读(1419)
评论(0)
推荐(0)
编辑
公告