会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
Runner_Jack
博客园
首页
新随笔
联系
订阅
管理
2018年1月10日
spark数据倾斜与解决方法
摘要: 一、数据倾斜 数据倾斜一般发生在对数据进行重新划分以及聚合的处理过程中。执行Spark作业时,数据倾斜一般发生在shuffle过程中,因为Spark的shuffle过程需要进行数据的重新划分处理。在执行shuffle过程中,Spark需要将各个节点上相同key的数据拉取到某个处理节点的task中进行
阅读全文
posted @ 2018-01-10 14:14 Runner_Jack
阅读(3233)
评论(1)
推荐(1)
编辑
公告