摘要: 1)使用高性能序列化类库 2)优化数据结构 3)对多次使用的RDD进行持久化或Checkpoint 4)提高并行度(根据Spark官方的推荐,最优的方案是给集群中的每个cpu core设置2~3个task,也就是task的数量是cpu核的2~3倍。) 5)广播共享数据 6)数据本地化 7)reduc 阅读全文
posted @ 2019-10-15 17:45 hulifang 阅读(115) 评论(0) 推荐(0) 编辑