wqy1027

eeee

 

Spark 调优

Spark 调优

 

1.对多次使用的RDD进行持久化

 

 

2.使用高性能的算子

 

 

3.广播大变量

 

 

4.使用kryo优化序列化性能

 

 

5.优化数据结构

 

 

6.使用高性能的库fastutil

 

 

 

 

数据本地性

 

 

 

jvm调优

 

 

shuffle调优

 

 

调节Executor堆外内存

 

 

 

 

数据倾斜

1.数据分布不均;2.有shuffle

解决方案

1.使用Hive ETL预处理数据

 

 

2.过滤少数导致倾斜的key

 

 

3.提高shuffle操作的并行度

 

 

4.双重聚合

 

 

5.将reduce join 转为map join

 

 

6.采样倾斜key并拆分join操作

 

 

7.使用随机前缀和扩容RDD进行join

 

posted on 2022-11-03 21:05  不想写代码的小玉  阅读(24)  评论(0编辑  收藏  举报

导航