第一次作业（Spark架构与运行流程）

1. 阐述Hadoop生态系统中，HDFS, MapReduce, Yarn, Hbase及Spark的相互关系。

答:hdfs是所有hadoop生态的底层存储架构，它主要完成了分布式存储系统的逻辑，凡是需要存储的都基于其上构建。

yarn是负责集群资源管理的部分，这个资源包括计算资源和存储资源，因此它也支撑了hdfs和各种计算模块。

map-reduce组件主要完成了map-reduce任务的调度逻辑，它依赖于hdfs作为输入输出及中间过程的存储，因此在hdfs之上，它也依赖yarn为它分配资源，因此也在yarn之上。

hbase基于hdfs存储，通过独立的服务管理起来，因此仅在hdfs之上。

hive基于hdfs存储，通过独立的服务管理起来，因此仅在hdfs之上。

spark基于hdfs存储，即可以依赖yarn做资源分配计算资源也可以通过独立的服务管理，因此在hdfs之上也在yarn之上，从结构上看它和mapreduce一层比较像。

总之，每一个系统负责了自己擅长的一部分，同时相互依托，形成了整个hadoop生态。

2. Spark已打造出结构一体化、功能多样化的大数据生态系统，请简述Spark生态系统。

答：Spark的设计遵循“一个软件栈满足不同应用场景”的理念，逐渐形成一套完整生态系统，既能够提供内存计算框架，也可以支持SQL即席查询、实时流式计算、机器学习和图计算等。Spark可以部署在资源管理器YARN之上，提供一站式的大数据解决方案。因此，Spark所提供的生态系统同时支持批处理、交互式查询和流数据处理。

3. 用图文描述你所理解的Spark运行架构，运行流程。

答：

Spark运行架构及流程：

基本概念：

Application：用户编写的Spark应用程序。
Driver：Spark中的Driver即运行上述Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中有SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭。
Executor：是运行在工作节点（WorkerNode）的一个进程，负责运行Task。
RDD：弹性分布式数据集，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。
DAG：有向无环图，反映RDD之间的依赖关系。
Task：运行在Executor上的工作单元。
Job：一个Job包含多个RDD及作用于相应RDD上的各种操作。
Stage：是Job的基本调度单位，一个Job会分为多组Task，每组Task被称为Stage，或者也被称为TaskSet，代表一组关联的，相互之间没有Shuffle依赖关系的任务组成的任务集。
Cluter Manager：指的是在集群上获取资源的外部服务。目前有三种类型
1) Standalon : spark原生的资源管理，由Master负责资源的分配
2) Apache Mesos:与hadoop MR兼容性良好的一种资源调度框架
3) Hadoop Yarn: 主要是指Yarn中的ResourceManager

一个Application由一个Driver和若干个Job构成，一个Job由多个Stage构成，一个Stage由多个没有Shuffle关系的Task组成。

当执行一个Application时，Driver会向集群管理器申请资源，启动Executor，并向Executor发送应用程序代码和文件，然后在Executor上执行Task，运行结束后，执行结果会返回给Driver，或者写到HDFS或者其它数据库中。

Spark运行基本流程：

为应用构建起基本的运行环境，即由Driver创建一个SparkContext进行资源的申请、任务的分配和监控
资源管理器为Executor分配资源，并启动Executor进程。
SparkContext根据RDD的依赖关系构建DAG图，DAG图提交给DAGScheduler解析成Stage，然后把一个个TaskSet提交给底层调度器TaskScheduler处理。
Executor向SparkContext申请Task，TaskScheduler将Task发放给Executor运行并提供应用程序代码。
Task在Executor上运行把执行结果反馈给TaskScheduler，然后反馈给DAGScheduler，运行完毕后写入数据并释放所有资源。

Spark运行架构特点：

（1）每个Application都有自己专属的Executor进程，并且该进程在Application运行期间一直驻留。Executor进程以多线程的方式运行Task。

（2）Spark运行过程与资源管理器无关，只要能够获取Executor进程并保存通信即可。
Task采用数据本地性和推测执行等优化机制。

posted @ 2021-03-12 15:51 红烧鸿宝阅读(193) 评论(0) 收藏举报

刷新页面返回顶部

红烧鸿宝

第一次作业（Spark架构与运行流程）

公告