2020 年 11月 20 日随笔档案 - 宁君

2020年11月20日

摘要： 1 尽量避免数据源的数据倾斜比如数据源是Kafka 以Spark Stream通过DirectStream方式读取Kafka数据为例。由于Kafka的每一个Partition对应Spark的一个Task（Partition），所以Kafka内相关Topic的各Partition之间数据是否平衡，直阅读全文

posted @ 2020-11-20 22:05 宁君阅读(289) 评论(0) 推荐(0) 编辑

Spark-5-如何定位导致数据倾斜的代码

摘要：数据倾斜只会发生在shuffle过程中。这里给大家罗列一些常用的并且可能会触发shuffle操作的算子：distinct、groupByKey、reduceByKey、aggregateByKey、join、cogroup、repartition等。出现数据倾斜时，可能就是你的代码中使用了这些算子中阅读全文

posted @ 2020-11-20 22:03 宁君阅读(537) 评论(0) 推荐(0) 编辑

Spark-4-为何要处理数据倾斜

摘要：什么是数据倾斜对Spark/Hadoop这样的大数据系统来讲，数据量大并不可怕，可怕的是数据倾斜。何谓数据倾斜？数据倾斜指的是，并行处理的数据集中，某一部分（如Spark或Kafka的一个Partition）的数据显著多于其它部分，从而使得该部分的处理速度成为整个数据集处理的瓶颈。如果数据倾斜阅读全文

posted @ 2020-11-20 22:02 宁君阅读(110) 评论(0) 推荐(0) 编辑

宁君

公告