摘要: 1 尽量避免数据源的数据倾斜 比如数据源是Kafka 以Spark Stream通过DirectStream方式读取Kafka数据为例。由于Kafka的每一个Partition对应Spark的一个Task(Partition),所以Kafka内相关Topic的各Partition之间数据是否平衡,直 阅读全文
posted @ 2020-11-20 22:05 宁君 阅读(289) 评论(0) 推荐(0) 编辑
摘要: 数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子:distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时,可能就是你的代码中使用了这些算子中 阅读全文
posted @ 2020-11-20 22:03 宁君 阅读(537) 评论(0) 推荐(0) 编辑
摘要: 什么是数据倾斜 对Spark/Hadoop这样的大数据系统来讲,数据量大并不可怕,可怕的是数据倾斜。 何谓数据倾斜?数据倾斜指的是,并行处理的数据集中,某一部分(如Spark或Kafka的一个Partition)的数据显著多于其它部分,从而使得该部分的处理速度成为整个数据集处理的瓶颈。 如果数据倾斜 阅读全文
posted @ 2020-11-20 22:02 宁君 阅读(110) 评论(0) 推荐(0) 编辑