3.Spark设计与运行原理，基本操作

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。

　　目前，Spark生态系统已经发展成为一个可应用于大规模数据处理的统一分析引擎，它是基于内存计算的大数据并行计算框架，适用于各种各样的分布式平台系统。在Spark生态圈中包含了Spark SQL、Spark Streaming、GraphX、MLlib等组件，这些组件可以非常容易地把各种处理流程整合在一起，而这样的整合，在实际数据分析过程中是很有意义的。不仅如此，Spark的这种特性还大大减轻了原先需要对各种平台分别管理的依赖负担。下面，通过一张图描述Spark的生态系统。

（1）Spark Core：Spark核心组件，它实现了Spark的基本功能，包含任务调度、内存管理、错误恢复、与存储系统交互等模块。Spark Core中还包含了对弹性分布式数据集(Resilient Distributed Datasets,RDD)的API定义，RDD是只读的分区记录的集合，只能基于在稳定物理存储中的数据集和其他已有的RDD上执行确定性操作来创建。

（2）Spark SQL：用来操作结构化数据的核心组件，通过Spark SQL可以直接查询Hive、 HBase等多种外部数据源中的数据。Spark SQL的重要特点是能够统一处理关系表和RDD在处理结构化数据时，开发人员无须编写 MapReduce程序，直接使用SQL命令就能完成更加复杂的数据查询操作。

（3）Spark Streaming：Spark提供的流式计算框架，支持高吞吐量、可容错处理的实时流式数据处理，其核心原理是将流数据分解成一系列短小的批处理作业，每个短小的批处理作业都可以使用 Spark Core进行快速处理。Spark Streaming支持多种数据源，如 Kafka以及TCP套接字等。

(4)MLlib：Spark提供的关于机器学习功能的算法程序库，包括分类、回归、聚类、协同过滤算法等，还提供了模型评估、数据导入等额外的功能，开发人员只需了解一定的机器学习算法知识就能进行机器学习方面的开发，降低了学习成本。

(5) GraphX: Spark提供的分布式图处理框架，拥有图计算和图挖掘算法的API接口以及丰富的功能和运算符，极大地方便了对分布式图的处理需求，能在海量数据上运行复杂的图算法。

(6)独立调度器、Yarn、 Mesos: Spark框架可以高效地在一个到数千个节点之间伸缩计算，集群管理器则主要负责各个节点的资源管理工作，为了实现这样的要求，同时获得最大的灵活性， Spark支持在各种集群管理器( Cluster Manager)上运行， Hadoop Yarn、Apache Mesos以及 Spark自带的独立调度器都被称为集群管理器。

2.请详细阐述Spark的几个主要概念及相互关系：

Master, Worker; RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager

DAGScheduler, TaskScheduler.

TaskScheduler

　　Master：负责为运行在资源管理跨框架上的应用程序分配资源。

　　Worker：根据Cluster Manager的指令分配资源，执行应用程序，释放资源。

　　RDD:RDD是一个懒执行的不可变的可以支持Lambda表达式的并行数据集合。RDD的最大好处就是简单，API的人性化程度很高。RDD的劣势是性能限制，它是一个JVM驻内存对象，这也就决定了存在GC的限制和数据增加时Java序列化成本的升高。

　　DAG:DAG是一个有向无环图，在Spark中，使用 DAG 来描述我们的计算逻辑。主要分为DAG Scheduler 和Task Scheduler。

　　Application：application是Spark API 编程的应用程序，它包括实现Driver功能的代码和在程序中各个executor上要执行的代码，一个application由多个job组成。其中应用程序的入口为用户所定义的main方法。

　　job：Job是Spark应用执行层次结构中的最高层元素。在Spark应用程序中，每个RDD的Action操作都对应一个Job。每个Job会被划分成一系列的Stage， Stage的数量依赖于发生过多少次shuffle操作。

　　stage：每个Job都被划分为一些较小的任务集(Task Set)，这些任务集称为Stage。这些Stage相互依赖，从而形成一个Stage的DAG图（有向无环图）。

　　task：发送给Executor端执行的工作单元。每个RDD的分区对应一个Task，也就是说，触发任务执行的RDD有多少个分区就会创建多少个Task。Task的创建是在Driver端完成，而Task的执行在Executor端。Executor会创建一个线程池来执行Task，每个Task对应一个执行线程。

　　driver：Driver负责启动Spark应用，驱动应用的执行。它对Spark应用的整个执行过程进行管控，它是Spark应用程序的"master"(在Spark应用执行时，Driver端会启动很多服务的master端，这些服务的slave端运行在Executor上，这些服务的slave会向Driver端对应的master注册或汇报运行状态信息)。

总的来说Driver需要完成以下几个方面的工作：

通过运行Spark应用的main函数来启动Spark应用；
向资源管理平台申请资源，并在Worker节点上启动Executor；
创建SparkSession（包括SparkContext和SparkEnv， SparkContext会和Cluster Manager进行交互，包括向它申请资源等），并对Spark应用进行规划，编排，最后提交到Executor端执行；
收集Spark应用的执行状态，并返回执行结果；

　　executor：Executor是执行Spark应用的容器，顾名思义，它的职责就是根据Driver端的要求来启动执行线程，执行任务，并返回执行结果。

　　Cluster Manager：负责集群的资源管理和调度，为运行在资源管理框架上的应用程序分配资源。

3.在PySparkShell尝试以下代码，观察执行结果，理解sc,RDD,DAG。请画出相应的RDD转换关系图。

posted on 2022-03-11 17:42 敖呜阅读(82) 评论(0) 编辑收藏举报

3.Spark设计与运行原理，基本操作

搜索

常用链接

随笔分类

随笔档案

阅读排行榜