2019 年 7月 10 日随笔档案 - LXL_1

2019年7月10日

摘要： 7.Spark 核心组件解析 7.1 BlockManager 数据存储与管理机制 BlockManager 是整个 Spark 底层负责数据存储与管理的一个组件，Driver 和 Executor 的所有数据都由对应的 BlockManager 进行管理。 Driver 上有 BlockManag 阅读全文

posted @ 2019-07-10 19:35 LXL_1 阅读(541) 评论(0) 推荐(0) 编辑

Spark 内存管理

摘要： 6.Spark 内存管理在执行 Spark 的应用程序时， Spark 集群会启动 Driver 和 Executor 两种 JVM 进程，前者为主控进程，负责创建 Spark 上下文，提交 Spark 作业（Job），并将作业转化为计算任务（Task），在各个 Executor 进程间协调任务阅读全文

posted @ 2019-07-10 19:24 LXL_1 阅读(254) 评论(0) 推荐(0) 编辑

Spark Shuffle 解析

摘要： 5.Spark Shuffle 解析 5.1 Shuffle 的核心要点 5.1.1 ShuffleMapStage 与 FinalStage 在划分 stage 时，最后一个 stage 称为 FinalStage，它本质上是一个 ResultStage 对象，前面的所有 stage 被称为 Sh 阅读全文

posted @ 2019-07-10 19:14 LXL_1 阅读(304) 评论(0) 推荐(0) 编辑

Spark 任务调度机制

摘要： 4.Spark 任务调度机制在工厂环境下，Spark 集群的部署方式一般为 YARN-Cluster 模式，之后的内核分析内容中我们默认集群的部署方式为 YARN-Cluster 模式。 4.1 Spark 任务提交流程在上一章中我们讲解了 Spark YARN-Cluster 模式下的任务提阅读全文

posted @ 2019-07-10 18:46 LXL_1 阅读(1683) 评论(0) 推荐(0) 编辑

Spark 通讯架构

摘要： 3.Spark 通讯架构 3.1 Spark 通信架构概述 Spark2.x 版本使用 Netty 通讯框架作为内部通讯组件。spark 基于 netty 新的 rpc 框架借鉴了 Akka 的中的设计，它是基于 Actor 模型，如下图所示： Spark 通讯框架中各个组件（Client/Mast 阅读全文

posted @ 2019-07-10 15:36 LXL_1 阅读(369) 评论(0) 推荐(0) 编辑

Spark 内核概述部署模式

摘要： 1.Spark 内核概述 Spark 内核泛指 Spark 的核心运行机制，包括 Spark 核心组件的运行机制、Spark 任务调度机制、Spark 内存管理机制、Spark 核心功能的运行原理等，熟练掌握 Spark 内核原理，能够帮助我们更好地完成 Spark 代码设计，并能够帮助我们准确锁定阅读全文

posted @ 2019-07-10 14:25 LXL_1 阅读(387) 评论(0) 推荐(0) 编辑

Spark DStream 输出编程进阶

摘要： 5.DStream 输出输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库或输出到屏幕上)。与 RDD 中的惰性求值类似，如果一个 DStream 及其派生出的 DStream 都没有被执行输出操作，那么这些 DStream 就都不会被求值。如果 Streami 阅读全文

posted @ 2019-07-10 02:40 LXL_1 阅读(643) 评论(0) 推荐(0) 编辑

LXL_1

公告