spark性能优化(包括优化原理及基本方法)

https://www.jianshu.com/p/b8841a8925fb

spark性能优化

1.诊断内存的消耗

2. 高性能序列化类库

3. 优化数据结构

4. 对多次使用的rdd进行持久化或者checkpoint

5. 使用序列化的持久化级别

6. java虚拟机垃圾回收调优

7. 提高并行度

8. 广播共享数据

9. 数据本地化

10. reducebykey和groupbykey

11. shuffle性能调优

posted on 2018-05-06 16:44  moonlight.ml  阅读(361)  评论(0编辑  收藏  举报

导航