摘要: 7.Spark 核心组件解析 7.1 BlockManager 数据存储与管理机制 BlockManager 是整个 Spark 底层负责数据存储与管理的一个组件,Driver 和 Executor 的所有数据都由对应的 BlockManager 进行管理。 Driver 上有 BlockManag 阅读全文
posted @ 2019-07-10 19:35 LXL_1 阅读(541) 评论(0) 推荐(0) 编辑
摘要: 6.Spark 内存管理 在执行 Spark 的应用程序时, Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job), 并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务 阅读全文
posted @ 2019-07-10 19:24 LXL_1 阅读(254) 评论(0) 推荐(0) 编辑
摘要: 5.Spark Shuffle 解析 5.1 Shuffle 的核心要点 5.1.1 ShuffleMapStage 与 FinalStage 在划分 stage 时,最后一个 stage 称为 FinalStage,它本质上是一个 ResultStage 对象,前面的所有 stage 被称为 Sh 阅读全文
posted @ 2019-07-10 19:14 LXL_1 阅读(304) 评论(0) 推荐(0) 编辑
摘要: 4.Spark 任务调度机制 在工厂环境下,Spark 集群的部署方式一般为 YARN-Cluster 模式,之后的内核 分析内容中我们默认集群的部署方式为 YARN-Cluster 模式。 4.1 Spark 任务提交流程 在上一章中我们讲解了 Spark YARN-Cluster 模式下的任务提 阅读全文
posted @ 2019-07-10 18:46 LXL_1 阅读(1683) 评论(0) 推荐(0) 编辑
摘要: 3.Spark 通讯架构 3.1 Spark 通信架构概述 Spark2.x 版本使用 Netty 通讯框架作为内部通讯组件。spark 基于 netty 新的 rpc 框架借鉴了 Akka 的中的设计,它是基于 Actor 模型,如下图所示: Spark 通讯框架中各个组件(Client/Mast 阅读全文
posted @ 2019-07-10 15:36 LXL_1 阅读(369) 评论(0) 推荐(0) 编辑
摘要: 1.Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制,包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等,熟练掌握 Spark 内核原理,能够帮助我们更好地完成 Spark 代码设计,并能够帮助我们准确锁定 阅读全文
posted @ 2019-07-10 14:25 LXL_1 阅读(387) 评论(0) 推荐(0) 编辑
摘要: 5.DStream 输出 输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据 库或输出到屏幕上)。与 RDD 中的惰性求值类似,如果一个 DStream 及其派生出的 DStream 都没 有被执行输出操作,那么这些 DStream 就都不会被求值。如果 Streami 阅读全文
posted @ 2019-07-10 02:40 LXL_1 阅读(643) 评论(0) 推荐(0) 编辑