大数据学习（24）—— Spark入门

在学Spark之前，我们再回顾一下MapReduce的知识，这对我们理解Spark大有裨益。

在大数据的技术分层中，Spark和MapReduce同为计算层的批处理技术，但是Spark比MapReduce要快很多。看看官网是怎么说的Apache Spark。

简介

Apache Spark是一个统一的大规模数据处理分析引擎。它提供基于Java,Scala, Python和R语言的高级api，并且自动优化执行流程。它还支持丰富的高级工具，包括用于处理结构化数据的Spark SQL，用于机器学习的MLlib，用于图形处理的GraphX，用于增量计算和流处理的Spark Streaming。

Spark处理框架

这个里面最核心的是第二层Spark Core，在后面我们会学习到。

Spark Core：包含Spark的基本功能；尤其是定义RDD的API、操作以及这两者上的动作。其他Spark的库都是构建在RDD和Spark Core之上。
Spark SQL：提供通过Apache Hive的SQL变体Hive查询语言（HiveQL）与Spark进行交互的API。每个数据库表被当做一个RDD，Spark SQL查询被转换为Spark操作。
Spark Streaming：对实时数据流进行处理和控制。Spark Streaming允许程序能够像普通RDD一样处理实时数据。
MLlib：一个常用机器学习算法库，算法被实现为对RDD的Spark操作。这个库包含可扩展的学习算法，比如分类、回归等需要对大量数据集进行迭代的操作。
GraphX：控制图、并行图操作和计算的一组算法和工具的集合。GraphX扩展了RDD API，包含控制图、创建子图、访问路径上所有顶点的操作。

Spark架构

Application：基于spark的用户程序，包含了一个Driver program 和集群中多个Executor。
Driver Program：运行application的main()函数并自动创建SparkContext。Driver program通过一个SparkContext对象来访问Spark，通常用SparkContext代表Driver。
SparkContext: Spark的主要入口点，代表对计算集群的一个连接，是整个应用的上下文，负责与ClusterManager通信，进行资源申请、任务的分配和监控等。
ClusterManager：在集群上获得资源的外部服务（spark standalone，mesos，yarm），Standalone模式：Spark原生的资源管理，由Master负责资源，YARN模式：Yarn中的ResourceManager。
Worker Node：集群中任何可运行Application代码的节点，负责控制计算节点，启动Executor或者Driver（Standalone模式：Worder，Yarn模式：NodeManager）。
Executor：为某个Application在worker node上执行任务的一个进程，该进程负责运行task并负责将数据存储在内存或者硬盘上，每个application都有自己独立的一组Executors。
Task：被送到executor上执行的工作单元。

Spark为什么比MapReduce快

从知乎上转一个答案过来，讲的很透彻。

Spark vs MapReduce ≠ 内存 vs 磁盘

其实Spark和MapReduce的计算都发生在内存中，区别在于：

MapReduce通常需要将计算的中间结果写入磁盘，然后还要读取磁盘，从而导致了频繁的磁盘IO。
Spark则不需要将计算的中间结果写入磁盘，这得益于Spark的RDD（弹性分布式数据集，很强大）和DAG（有向无环图），其中DAG记录了job的stage以及在job执行过程中父RDD和子RDD之间的依赖关系。中间结果能够以RDD的形式存放在内存中，且能够从DAG中恢复，大大减少了磁盘IO。

Spark vs MapReduce Shuffle的不同

Spark和MapReduce在计算过程中通常都不可避免的会进行Shuffle，两者至少有一点不同：

MapReduce在Shuffle时需要花费大量时间进行排序，排序在MapReduce的Shuffle中似乎是不可避免的；
Spark在Shuffle时则只有部分场景才需要排序，支持基于Hash的分布式聚合，更加省时；

多进程模型 vs 多线程模型的区别

MapReduce采用了多进程模型，而Spark采用了多线程模型。多进程模型的好处是便于细粒度控制每个任务占用的资源，但每次任务的启动都会消耗一定的启动时间。就是说MapReduce的Map Task和Reduce Task是进程级别的，而Spark Task则是基于线程模型的，就是说mapreduce 中的 map 和 reduce 都是 jvm 进程，每次启动都需要重新申请资源，消耗了不必要的时间（假设容器启动时间大概1s，如果有1200个block，那么单独启动map进程事件就需要20分钟）
Spark则是通过复用线程池中的线程来减少启动、关闭task所需要的开销。（多线程模型也有缺点，由于同节点上所有任务运行在一个进程中，因此，会出现严重的资源争用，难以细粒度控制每个任务占用资源）

posted on 2021-06-25 06:13 别样风景天阅读(214) 评论(0) 收藏举报

刷新页面返回顶部