摘要: 一、数据倾斜产生的原因 spark job中绝大多数task执行得非常快,但个别task执行缓慢。或者原本线上运行的job是正常,但在某天由于特殊原因报出OOM的异常,观察发现是因为代码本身造成的。 一般来说,发生数据倾斜是在程序进行shuffle的时候,必须将各个节点上相同的key拉取到某个节点上 阅读全文
posted @ 2022-01-09 22:54 Shydow 阅读(278) 评论(0) 推荐(0) 编辑