2019 年 8月 5 日随笔档案 - 农夫三拳有點疼

数据倾斜（记录）

摘要：一、数据倾斜介绍与定位二、解决方法一：聚合数据源三、解决方法二：提高shuffle操作reduce并行度四、解决方法之三：随机key实现双重聚合五、解决方法之四：将reduce join 转换为map join 六、解决方法之五：sample采样倾斜key进行两次join 七、解决方法之六：阅读全文

posted @ 2019-08-05 17:13 农夫三拳有點疼阅读(375) 评论(0) 推荐(0) 编辑

0 Spark调优

摘要： 1. 开发调优 - 避免创建重复的RDD - 尽可能复用同一个RDD - 对多次使用的RDD进行持久化 - 尽量避免使用shuffle类算子 - 使用map-side预聚合的shuffle操作（在每个节点本地对相同的key进行一次聚合操作，map-side预聚合之后，每个节点本地就只会有一条相同的k 阅读全文

posted @ 2019-08-05 17:04 农夫三拳有點疼阅读(156) 评论(0) 推荐(0) 编辑

农夫三拳有點疼

数据倾斜（记录）

0 Spark调优

推荐系统--入门篇

导航