摘要:
1. 避免创建重复的RDD 2. 尽可能复用同一个RDD 3. 对多次使用的RDD进行持久化 // 如果要对一个RDD进行持久化,只要对这个RDD调用cache()和persist()即可。 // 正确的做法。 // cache()方法表示:使用非序列化的方式将RDD中的数据全部尝试持久化到内存中。 阅读全文
摘要:
Executor配置 conf={ "spark.executor.memory": "4g", "spark.executor.cores":"4", "spark.executor.instances": "150", "spark.yarn.executor.memoryOverhead": 阅读全文