摘要: 什么是数据倾斜? Spark 的计算抽象如下 数据倾斜指的是:并行处理的数据集中,某一部分(如 Spark 或 Kafka 的一个 Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜不能解决,其他的优化手段再逆天都白搭,如同短板效应,任务完成 阅读全文
posted @ 2019-07-25 18:51 lillcol 阅读(814) 评论(0) 推荐(0) 编辑