摘要: 在spark的优化过程中,shuffle的分区数量和数据倾斜问题一直是一个令人比较头疼的问题,自Spark 2.3.1版本后,自动设置shuffle Partition最新代码正式加入,但动态调整执行计划与处理数据倾斜并未同期并入该版本. 关于原理很多文章已经分析的差不多了,这里并不做提及,主要是记 阅读全文
posted @ 2020-07-14 14:27 sssuperMario 阅读(1446) 评论(0) 推荐(0) 编辑