2020 年 7月 14 日随笔档案 - sssuperMario

2020年7月14日

摘要：在spark的优化过程中，shuffle的分区数量和数据倾斜问题一直是一个令人比较头疼的问题，自Spark 2.3.1版本后，自动设置shuffle Partition最新代码正式加入，但动态调整执行计划与处理数据倾斜并未同期并入该版本. 关于原理很多文章已经分析的差不多了，这里并不做提及，主要是记阅读全文

posted @ 2020-07-14 14:27 sssuperMario 阅读(1446) 评论(0) 推荐(0) 编辑

sssuperMario

公告