摘要: 下面来看看更复杂的情况,比如,当调度器进行流水线执行(pipelining),或把多个 RDD 合并到一个步骤中时。当RDD 不需要混洗数据就可以从父节点计算出来时,调度器就会自动进行流水线执行。上一篇博文结尾处输出的谱系图使用不同缩进等级来展示 RDD 是否会在物理步骤中进行流水线执行。在物理执行 阅读全文
posted @ 2019-04-21 21:57 |旧市拾荒| 阅读(499) 评论(0) 推荐(0) 编辑
摘要: 一、使用SparkConf配置Spark 对 Spark 进行性能调优,通常就是修改 Spark 应用的运行时配置选项。Spark 中最主要的配置机制是通过 SparkConf 类对 Spark 进行配置。当创建出一个 SparkContext 时,就需要创建出一个 SparkConf 的实例。 S 阅读全文
posted @ 2019-04-21 21:53 |旧市拾荒| 阅读(603) 评论(0) 推荐(0) 编辑