摘要: num-executors 参数说明:参数用于设置Spark作业总共要用多少个Executor进程来执行。Driver在向YARN集群管理器申请资源时,YARN集群管理器会尽可能按照你的设置来在集群的各个工作节点上, 启动相应数量的Executor进程。这个参数非常之重要,如果不设置的话,默认只会给 阅读全文
posted @ 2021-11-17 10:27 lmandcc 阅读(243) 评论(0) 推荐(0) 编辑
摘要: 原则一:避免创建重复的RDD 通常来说,我们在开发一个Spark作业时,首先是基于某个数据源(比如Hive表或HDFS文件)创建一个初始的RDD;接着对这个RDD执行某个算子操作,然后得到下一个RDD; 以此类推,循环往复,直到计算出最终我们需要的结果。在这个过程中,多个RDD会通过不同的算子操作( 阅读全文
posted @ 2021-11-17 09:28 lmandcc 阅读(190) 评论(0) 推荐(0) 编辑