摘要: 1. 避免创建重复的RDD 2. 尽可能复用同一个RDD 3. 对多次使用的RDD进行持久化 // 如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。 // 正确的做法。 // cache()方法表示:使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。 阅读全文
posted @ 2021-09-15 20:51 xd_xumaomao 阅读(109) 评论(0) 推荐(0) 编辑
摘要: Executor配置 conf={ "spark.executor.memory": "4g", "spark.executor.cores":"4", "spark.executor.instances": "150", "spark.yarn.executor.memoryOverhead": 阅读全文
posted @ 2021-09-15 20:30 xd_xumaomao 阅读(2451) 评论(0) 推荐(0) 编辑