摘要: 首先摆出常用的参数设定 bin/spark-submit \ --class com.xyz.bigdata.calendar.PeriodCalculator \ --master yarn \ --deploy-mode cluster \ --queue default_queue \ --n 阅读全文
posted @ 2020-08-23 20:44 花未全开*月未圆 阅读(2415) 评论(0) 推荐(0) 编辑
摘要: Spark 核心组件解析 BlockManager数据存储与管理机制 BlockManager是整个Spark底层负责数据存储与管理的一个组件,Driver和Executor的所有数据都由对应的BlockManager进行管理。 Driver上有BlockManagerMaster,负责对各个节点上 阅读全文
posted @ 2020-08-23 15:30 花未全开*月未圆 阅读(290) 评论(1) 推荐(0) 编辑
摘要: Spark 内存管理 在执行Spark 的应用程序时,Spark 集群会启动 Driver 和 Executor 两种 JVM 进程,前者为主控进程,负责创建 Spark 上下文,提交 Spark 作业(Job),并将作业转化为计算任务(Task),在各个 Executor 进程间协调任务的调度,后 阅读全文
posted @ 2020-08-23 15:26 花未全开*月未圆 阅读(273) 评论(0) 推荐(0) 编辑
摘要: 5.1 Shuffle的核心要点 5.1.1 ShuffleMapStage与ResultStage 在划分stage时,最后一个stage称为finalStage,它本质上是一个ResultStage对象,前面的所有stage被称为ShuffleMapStage。 ShuffleMapStage的 阅读全文
posted @ 2020-08-23 15:11 花未全开*月未圆 阅读(325) 评论(0) 推荐(0) 编辑
摘要: Spark 任务调度机制 在工厂环境下,Spark集群的部署方式一般为YARN-Cluster模式,之后的内核分析内容中我们默认集群的部署方式为YARN-Cluster模式。 Spark任务提交流程 在上一章中我们讲解了Spark YARN-Cluster模式下的任务提交流程,如下图所示: 下面的时 阅读全文
posted @ 2020-08-23 14:43 花未全开*月未圆 阅读(417) 评论(0) 推荐(0) 编辑
摘要: 3.1 Spark通信架构概述 Spark2.x版本使用Netty通讯框架作为内部通讯组件。spark 基于netty新的rpc框架借鉴了Akka的中的设计,它是基于Actor模型,如下图所示: Spark通讯框架中各个组件(Client/Master/Worker)可以认为是一个个独立的实体,各个 阅读全文
posted @ 2020-08-23 14:08 花未全开*月未圆 阅读(252) 评论(0) 推荐(0) 编辑
摘要: Spark 内核概述 Spark内核泛指Spark的核心运行机制,包括Spark核心组件的运行机制、Spark任务调度机制、Spark内存管理机制、Spark核心功能的运行原理等,熟练掌握Spark内核原理,能够帮助我们更好地完成Spark代码设计,并能够帮助我们准确锁定项目运行过程中出现的问题的症 阅读全文
posted @ 2020-08-23 11:45 花未全开*月未圆 阅读(348) 评论(0) 推荐(0) 编辑