Spark 调优
Spark 调优
1.对多次使用的RDD进行持久化
2.使用高性能的算子
3.广播大变量
4.使用kryo优化序列化性能
5.优化数据结构
6.使用高性能的库fastutil
数据本地性
jvm调优
shuffle调优
调节Executor堆外内存
数据倾斜
1.数据分布不均;2.有shuffle
解决方案
1.使用Hive ETL预处理数据
2.过滤少数导致倾斜的key
3.提高shuffle操作的并行度
4.双重聚合
5.将reduce join 转为map join
6.采样倾斜key并拆分join操作
7.使用随机前缀和扩容RDD进行join