摘要: 概述 Spark 输出数据到 HDFS 时,需要解决如下问题: 由于多个 Task 同时写数据到 HDFS,如何保证要么所有 Task 写的所有文件要么同时对外可见,要么同时对外不可见,即保证数据一致性 同一 Task 可能因为 Speculation 而存在两个完全相同的 Task 实例写相同的数 阅读全文
posted @ 2020-04-11 15:34 mzjnumber1 阅读(319) 评论(0) 推荐(0) 编辑
摘要: Spark解决数据倾斜(Data Skew) 摘要 本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案,包括避免数据源倾斜,调整并行度,使用自定义Partitioner,使用Map侧Join代替Reduce侧Join,给倾斜Key加上随机前缀等。 为何要处理数据倾斜(Data Sk 阅读全文
posted @ 2020-04-11 15:29 mzjnumber1 阅读(444) 评论(0) 推荐(0) 编辑