spark 性能优化简要总结

1.从同一个数据源尽量只创建一个rdd，后续业务逻辑复用该rdd
2.如果要对某个rdd进行多次的transformation或action操作，应当持久化该rdd
3.从数据源读取到rdd后，要尽早的进行filter操作以过滤掉无用的数据
4.尽量避免使用shffle算子，使用shuffle时，应尽量减少shuffle的数据量，可以用reducebykey 取代 groupbykey
5.熟悉算子机制，尽量使用高性能算子
6.对于打的变量，尽可能的使用广播机制
7.尽可能使用kryo优化序列化性能
8.提高程序的并行度，增加运算资源，将task少的任务repartition
9.进行序列化和压缩