2020 年 4月 11 日随笔档案 - mzjnumber1

2020年4月11日

摘要：概述 Spark 输出数据到 HDFS 时，需要解决如下问题：由于多个 Task 同时写数据到 HDFS，如何保证要么所有 Task 写的所有文件要么同时对外可见，要么同时对外不可见，即保证数据一致性同一 Task 可能因为 Speculation 而存在两个完全相同的 Task 实例写相同的数阅读全文

posted @ 2020-04-11 15:34 mzjnumber1 阅读(319) 评论(0) 推荐(0) 编辑

Spark解决数据倾斜（Data Skew）

摘要： Spark解决数据倾斜（Data Skew）摘要本文结合实例详细阐明了Spark数据倾斜的几种场景以及对应的解决方案，包括避免数据源倾斜，调整并行度，使用自定义Partitioner，使用Map侧Join代替Reduce侧Join，给倾斜Key加上随机前缀等。为何要处理数据倾斜（Data Sk 阅读全文

posted @ 2020-04-11 15:29 mzjnumber1 阅读(444) 评论(0) 推荐(0) 编辑