2019 年 10月 15 日随笔档案 - hulifang

2019年10月15日

摘要： 1）使用高性能序列化类库 2）优化数据结构 3）对多次使用的RDD进行持久化或Checkpoint 4）提高并行度（根据Spark官方的推荐，最优的方案是给集群中的每个cpu core设置2~3个task，也就是task的数量是cpu核的2~3倍。） 5）广播共享数据 6）数据本地化 7）reduc 阅读全文

posted @ 2019-10-15 17:45 hulifang 阅读(115) 评论(0) 推荐(0) 编辑

hulifang

公告