3.Spark设计与运行原理，基本操作

1.Spark已打造出结构一体化、功能多样化的大数据生态系统，请用图文阐述Spark生态系统的组成及各组件的功能。

1、Spark Core：Spark的核心组件，其操作的数据对象是RDD（弹性分布式数据集）可以简单认为Spark Core就是Spark生态系统中的离线计算框架。

2、 Spark Streaming：Spark生态系统中的流式计算框架，其操作的数据对象是DStream，其实Spark Streaming是将流式计算分解成一系列短小的批处理作业。

3 . Spark Sql：可以简单认为可以让用户使用写SQL的方式进行数据计算。

4 . Spark Graphx：Spark生态系统中的图计算和并行图计算。

5 . Spark Mlib：一个可扩展的Spark机器学习库，里面封装了很多通用的算法，包括二元分类、线性回归、聚类、协同过滤等。用于机器学习和统计等场景。

6 . Tachyon：Tachyon是一个分布式内存文件系统，可以理解为内存中的HDFS。

7 . Local，Standalone，Yarn，Mesos：Spark的四种部署模式，其中Local是本地模式，一般用来开发测试，Standalone是Spark 自带的资源管理框架，Yarn和Mesos是另外两种资源管理框架，Spark用哪种模式部署，也就是使用了哪种资源管理框架。

2.请详细阐述Spark的几个主要概念及相互关系：

Master, Worker; RDD,DAG; Application, job,stage,task; driver,executor,Claster Manager

DAGScheduler, TaskScheduler.

主要概念：

Worker：集群中任何可以运行Application代码的节点，在Standalone模式中指的是通过slave文件配置的Worker节点，在Spark on Yarn模式下就是NoteManager节点。

RDD：是弹性分布式数据集（Resilient Distributed Dataset）的简称，是分布式内存的一个抽象概念，提供了一种高度受限的共享内存模型。

DAG：是Directed Acyclic Graph（有向无环图）的简称，反映RDD之间的依赖关系。

Application：Application都是指用户编写的Spark应用程序，其中包括一个Driver功能的代码和分布在集群中多个节点上运行的Executor代码。

Task：被送到某个Executor上的工作单元，但HadoopMR中的MapTask和ReduceTask概念一样，是运行Application的基本单位，多个Task组成一个Stage，而Task的调度和管理等是由TaskScheduler负责

Job：包含多个Task组成的并行计算，往往由Spark Action触发生成，一个Application中往往会产生多个Job

Stage：每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage，Stage的划分和调度是有DAGScheduler来负责的，Stage有非最终的Stage（Shuffle Map Stage）和最终的Stage（Result Stage）两种，Stage的边界就是发生Shuffle的地方

Driver：Spark中的Driver即运行上述Application的main函数并创建SparkContext，创建SparkContext的目的是为了准备Spark应用程序的运行环境，在Spark中有SparkContext负责与ClusterManager通信，进行资源申请、任务的分配和监控等，当Executor部分运行完毕后，Driver同时负责将SparkContext关闭，通常用SparkContext代表Driver

Executor：某个Application运行在worker节点上的一个进程，该进程负责运行某些Task，并且负责将数据存到内存或磁盘上，每个Application都有各自独立的一批Executor，在Spark on Yarn模式下，其进程名称为CoarseGrainedExecutor Backend。一个CoarseGrainedExecutor Backend有且仅有一个Executor对象，负责将Task包装成taskRunner，并从线程池中抽取一个空闲线程运行Task，这个每一个CoarseGrainedExecutor Backend能并行运行Task的数量取决于分配给它的cup个数

DAGScheduler：根据Job构建基于Stage的DAG（Directed Acyclic Graph有向无环图），并提交Stage给TASKScheduler。其划分Stage的根据是RDD之间的依赖的关系找出开销最小的调度方法。

TASKScheduler：将TaskSET提交给Worker运行，每个Executor运行什么Task就是在此处分配的,TaskScheduler维护所有TaskSet，当Executor向Driver发生心跳时，TaskScheduler会根据资源剩余情况分配相应的Task。

相互关系：

Cluster Manager：指的是在集群上获取资源的外部服务。目前有三种类型：

1、standalone：spark原生的资源管理，由Master负责资源的分配
2、Apache Mesos：与hadoop MR兼容性良好的一种资源调度框架
3、Hadoop Yarn：主要指Yarn中的ResourceManager

3.在PySparkShell尝试以下代码，观察执行结果，理解sc,RDD,DAG（图）。请画出相应的RDD转换关系图。

>>> sc

>>> lines = sc.textFile("file:///home/hadoop/my.txt")

>>> lines

>>> words=lines.flatMap(lambda line:line.split())

>>> words

>>> wordKV=words.map(lambda word:(word,1))

>>> wordKV

>>> lineKV=lines.map(lambda line:(1,line))

>>> lineKV

>>> lines.foreach(print)

>>> words.foreach(print)

>>>wordKV.foreach(print)

>>>lineKV.foreach(print)

自己生成sc

from pyspark import SparkConf, SparkContext
conf = SparkConf().setMaster("local").setAppName("My App")
sc=SparkContext(conf=conf)

RDD转换关系图

posted on 2022-03-09 14:59 树亭阅读(109) 评论(0) 编辑收藏举报

刷新页面返回顶部

刘淑婷

3.Spark设计与运行原理，基本操作

导航

公告