【Spark2.0源码学习】-1.概述

Spark作为当前主流的分布式计算框架，其高效性、通用性、易用性使其得到广泛的关注，本系列博客不会介绍其原理、安装与使用相关知识，将会从源码角度进行深度分析，理解其背后的设计精髓，以便后续在Spark使用以及设计类似产品提供相关经验，下面开始进入正题。

本系列博客将从集群各端点的设计原理、通信方式、启动流程，以及用户任务提交后，任务的集群加载、分解、调度的方式两个方面进行解读。

首先，从脚本开始

详见《【Spark2.0源码学习】-2.一切从脚本说起》

其次，在集群各端点的设计原理、通信方式、启动方面

Spark集群由若干节点构成，而每个节点都是可以接受与发送消息的RPC服务端点（终端，英文：Endpoint），根据责任的不同可以分为三类端点：Client、Master、Worker，三端调用关系：

Client: Spark任务节点，负责发布，查询，以及中止任务的相关进程的统称，Client是运行时有效进程，如果相关任务处理完成，对应的进程结束
Master: Spark管理节点，负责管理Worker进程，协调调度Client发布的任务处理，Master节点可以为多个，有且仅能有一个为acitvity状态，其他为standby状态
Worker: Spark工作节点，负责具体的任务执行工作

我们将在如下章节逐步介绍：

《【Spark2.0源码学习】-3.Endpoint模型介绍》

《【Spark2.0源码学习】-4.Master启动》

《【Spark2.0源码学习】-5.Worker启动》

《【Spark2.0源码学习】-6.Client启动》

最后，在任务的集群加载、分解、调度方面

基于三端模型，用户通过spark-submit提交或者运行spark-shell REPL，集群创建Driver，Driver加载Application，最后Application根据用户代码转化为RDD，RDD分解为Tasks，Executor执行Task等系列知识，整体交互蓝图如下：

(注：如果不能完全理解，可在阅读完相关章节后再回来理解)

我们将在如下章节逐步介绍：

《【Spark2.0源码学习】-7.Driver与DriverRunner》

《【Spark2.0源码学习】-8.SparkContext与Application介绍》

《【Spark2.0源码学习】-9.Job提交与Task的拆分》

《【Spark2.0源码学习】-10.Task执行与回馈》

说明：由于Spark属于一个比较大的工程，时间有限，很多非关键点会选择点到即止，另外存在理解错误望理解与指正！

posted @ 2017-04-19 19:27 hframe 阅读(4653) 评论(6) 收藏举报

刷新页面返回顶部