摘要: Spark 内存管理 Spark 执行应用程序时, 会启动 Driver 和 Executor 两种 JVM 进程 Driver 负责创建 SparkContext 上下文, 提交任务, task的分发等。 Executor 负责 task 的计算任务, 并将结果返回给 Driver, 同时需要为需 阅读全文
posted @ 2019-10-26 14:02 wellDoneGaben 阅读(292) 评论(0) 推荐(0) 编辑
摘要: 1. SparkShuffle 概念 reduceByKey 会将上一个RDD中的每一个key对应的所有 value 聚合成一个 value, 然后生成一个value, 然后生成一个新的 RDD, 元素资源是 对的形式, 这样每一个 key 对应 一个聚合起来的 value。 问题: 聚合之前, 每 阅读全文
posted @ 2019-10-26 08:31 wellDoneGaben 阅读(193) 评论(0) 推荐(0) 编辑