Spark拾遗

一、Spark简介

1、基本介绍

Apache Spark 是专为大规模数据处理而设计的快速通用的计算引擎。Spark，拥有Hadoop MapReduce所具有的优点；但不同于MapReduce的是——Job中间输出结果可以保存在内存中，从而不再需要读写HDFS，而 Hadoop是基于磁盘。因此Spark能更好地适用于数据挖掘与机器学习等需要迭代的MapReduce的算法。Spark 是一种与 Hadoop 相似的开源集群计算环境，但是两者之间还存在一些不同之处，这些有用的不同之处使 Spark 在某些工作负载方面表现得更加优越，换句话说，Spark 启用了内存分布数据集，除了能够提供交互式查询外，它还可以优化迭代工作负载。

Spark 是在 Scala 语言中实现的，它将 Scala 用作其应用程序框架。与 Hadoop 不同，Spark 和 Scala 能够紧密集成，其中的 Scala 可以像操作本地集合对象一样轻松地操作分布式数据集。

2、组件架构

➢ Spark Core

Spark Core 中提供了 Spark 最基础与最核心的功能，Spark 其他的功能如：Spark SQL， Spark Streaming，GraphX, MLlib 都是在 Spark Core 的基础上进行扩展的

➢ Spark SQL

Spark SQL 是 Spark 用来操作结构化数据的组件。通过 Spark SQL，用户可以使用 SQL或者 Apache Hive 版本的 SQL 方言（HQL）来查询数据。

➢ Spark Streaming

Spark Streaming 是 Spark 平台上针对实时数据进行流式计算的组件，提供了丰富的处理数据流的 API。

➢ Spark MLlib

MLlib 是 Spark 提供的一个机器学习算法库。MLlib 不仅提供了模型评估、数据导入等额外的功能，还提供了一些更底层的机器学习原语。

➢ Spark GraphX

GraphX 是 Spark 面向图计算提供的框架与算法库。

3、性能特点

更快的速度

内存计算下，Spark 比 Hadoop 快100倍。

易用性

Spark 提供了80多个高级运算符。

通用性

Spark 提供了大量的库，包括Spark Core、Spark SQL、Spark Streaming、MLlib、GraphX。开发者可以在同一个应用程序中无缝组合使用这些库。

支持多种资源管理器

Spark 支持 Hadoop YARN，Apache Mesos，及其自带的独立集群管理器

4、Hadoop OR Spark ？

Hadoop MapReduce 由于其设计初衷并不是为了满足循环迭代式数据流处理，因此在多并行运行的数据可复用场景（如：机器学习、图挖掘算法、交互式数据挖掘算法）中存在诸多计算效率等问题。所以 Spark 应运而生，Spark 就是在传统的 MapReduce 计算框架的基础上，利用其计算过程的优化，从而大大加快了数据分析、挖掘的运行和读写速度，并将计算单元缩小到更适合并行计算和重复使用的 RDD 计算模型。
机器学习中ALS、凸优化梯度下降等。这些都需要基于数据集或者数据集的衍生数据,反复查询反复操作。MR这种模式不太合适，即使多MR串行处理，性能和时间也是一个问题。数据的共享依赖于磁盘。另外一种是交互式数据挖掘，MR 显然不擅长。而 Spark 所基于的 scala 语言恰恰擅长函数的处理。
Spark 是一个分布式数据快速分析项目。它的核心技术是弹性分布式数据集（Resilient Distributed Datasets），提供了比 MapReduce 丰富的模型，可以快速在内存中对数据集进行多次迭代，来支持复杂的数据挖掘算法和图形计算算法。
Spark 和Hadoop 的根本差异是多个作业之间的数据通信问题 : Spark 多个作业之间数据通信是基于内存，而 Hadoop 是基于磁盘。
Spark Task 的启动时间快。Spark 采用 fork 线程的方式，而 Hadoop 采用创建新的进程的方式。
Spark 只有在 shuffle 的时候将数据写入磁盘，而 Hadoop 中多个 MR 作业之间的数据交互都要依赖于磁盘交互
Spark 的缓存机制比 HDFS 的缓存机制高效。

经过上面的比较，我们可以看出在绝大多数的数据计算场景中，Spark 确实会比 MapReduce 更有优势。但是 Spark 是基于内存的，所以在实际的生产环境中，由于内存的限制，可能会由于内存资源不够导致 Job 执行失败，此时，MapReduce 其实是一个更好的选择，所以 Spark并不能完全替代MR。

二、Spark运行流程

1、Spark架构

2、常用术语

Driver

Spark 驱动器节点，用于执行 Spark 任务中的 main 方法，负责实际代码的执行工作。

Driver 在 Spark 作业执行时主要负责：

➢ 将用户程序转化为作业（job）

➢ 在 Executor 之间调度任务(task)

➢ 跟踪 Executor 的执行情况

➢ 通过 UI 展示查询运行情况

实际上，我们无法准确地描述 Driver 的定义，因为在整个的编程过程中没有看到任何有关Driver 的字眼。所以简单理解，所谓的 Driver 就是驱使整个应用运行起来的程序，也称之为 Driver 类。

Executor

Spark Executor 是集群中工作节点（Worker）中的一个 JVM 进程，负责在 Spark 作业中运行具体任务（Task），任务彼此之间相互独立。Spark 应用启动时，Executor 节点被同时启动，并且始终伴随着整个 Spark 应用的生命周期而存在。如果有 Executor 节点发生了故障或崩溃，Spark 应用也可以继续执行，会将出错节点上的任务调度到其他 Executor 节点上继续运行。

Executor 有两个核心功能：

➢ 负责运行组成 Spark 应用的任务，并将结果返回给驱动器进程

➢ 它们通过自身的块管理器（Block Manager）为用户程序中要求缓存的 RDD 提供内存

式存储。RDD 是直接缓存在 Executor 进程内的，因此任务可以在运行时充分利用缓存

数据加速运算。

Master & Worker

Spark 集群的独立部署环境中，不需要依赖其他的资源调度框架，自身就实现了资源调度的功能，所以环境中还有其他两个核心组件：Master 和 Worker，这里的 Master 是一个进程，主要负责资源的调度和分配，并进行集群的监控等职责，类似于 Yarn 环境中的 RM, 而 Worker 呢，也是进程，一个 Worker 运行在集群中的一台服务器上，由 Master 分配资源对数据进行并行的处理和计算，类似于 Yarn 环境中 NM。

ApplicationMaster

Hadoop 用户向 YARN 集群提交应用程序时,提交程序中应该包含 ApplicationMaster，用于向资源调度器申请执行任务的资源容器 Container，运行用户自己的程序任务 job，监控整个任务的执行，跟踪整个任务的状态，处理任务失败等异常情况。说的简单点就是，ResourceManager（资源）和 Driver（计算）之间的解耦合靠的就是 ApplicationMaster。

Task:

被送到某个Executor上的工作单元，但hadoopMR中的MapTask和ReduceTask概念一样，是运行Application的基本单位，多个Task组成一个Stage，而Task的调度和管理等是由TaskScheduler负责

Job

包含多个Task组成的并行计算，往往由Spark Action触发生成，一个Application中往往会产生多个Job

Stage

每个Job会被拆分成多组Task，作为一个TaskSet，其名称为Stage，Stage的划分和调度是有DAGScheduler来负责的，Stage有非最终的Stage（Shuffle Map Stage）和最终的Stage（Result Stage）两种，Stage的边界就是发生shuffle的地方

DAGScheduler

根据Job构建基于Stage的DAG（Directed Acyclic Graph有向无环图)，并提交Stage给TASkScheduler。其划分Stage的依据是RDD之间的依赖的关系找出开销最小的调度方法，

TASKSedulter: 将TaskSET提交给worker运行，每个Executor运行什么Task就是在此处分配的. TaskScheduler维护所有TaskSet，当Executor向Driver发生心跳时，TaskScheduler会根据资源剩余情况分配相应的Task。另外TaskScheduler还维护着所有Task的运行标签，重试失败的Task。

3、运行流程图

(1) Driver端向资源管理器Master发送注册和申请计算资源的请求

(2) Master通知对应的worker节点启动executor进程(计算资源)

(3) executor进程向Driver端发送注册并且申请task请求

(4) Driver端运行客户端的main方法，构建SparkContext对象，在SparkContext对象内部依次构建DAGScheduler和TaskScheduler

(5) 按照客户端代码洪rdd的一系列操作顺序，生成DAG有向无环图

(6) DAGScheduler拿到DAG有向无环图之后，按照宽依赖进行stage的划分。每一个stage内部有很多可以并行运行的task，最后封装在一个一个的taskSet集合中，然后把taskSet发送给TaskScheduler

(7) TaskScheduler得到taskSet集合之后，依次遍历取出每一个task提交到worker节点上的executor进程中运行

(8) 所有task运行完成，Driver端向Master发送注销请求，Master通知Worker关闭executor进程，Worker上的计算资源得到释放，最后整个任务也就结束了。

三、Spark运行模式

Spark注重建立良好的生态系统，它不仅支持多种外部文件存储系统，提供了多种多样的集群运行模式。部署在单台机器上时，既可以用本地（Local）模式运行，也可以使用伪分布式模式来运行；当以分布式集群部署的时候，可以根据自己集群的实际情况选择Standalone模式（Spark自带的模式）、YARN-Client模式或者YARN-Cluster模式。Spark的各种运行模式虽然在启动方式、运行位置、调度策略上各有不同，但它们的目的基本都是一致的，就是在合适的位置安全可靠的根据用户的配置和Job的需要运行和管理Task。

1、Spark on Standalone 模式

Standalone模式是Spark实现的资源调度框架，其主要的节点有Client节点、Master节点和Worker节点。其中Driver既可以运行在Master节点上中，也可以运行在本地Client端。当用spark-shell交互式工具提交Spark的Job时，Driver在Master节点上运行；当使用spark-submit工具提交Job或者在Eclips、IDEA等开发平台上使用"new SparkConf().setMaster("spark://master:7077")"方式运行Spark任务时，Driver是运行在本地Client端上的。

2、Spark on YARN 模式

YARN是一种统一资源管理机制，在其上面可以运行多套计算框架。目前的大数据技术世界，大多数公司除了使用Spark来进行数据计算，由于历史原因或者单方面业务处理的性能考虑而使用着其他的计算框架，比如MapReduce、Storm等计算框架。Spark基于此种情况开发了Spark on YARN的运行模式，由于借助了YARN良好的弹性资源管理机制，不仅部署Application更加方便，而且用户在YARN集群中运行的服务和Application的资源也完全隔离，更具实践应用价值的是YARN可以通过队列的方式，管理同时运行在集群中的多个服务。

Spark on YARN模式根据Driver在集群中的位置分为两种模式：一种是YARN-Client模式，另一种是YARN-Cluster（或称为YARN-Standalone模式）。

3、K8S & Mesos 模式

Mesos 是 Apache 下的开源分布式资源管理框架，它被称为是分布式系统的内核,在

Twitter 得到广泛使用,管理着 Twitter 超过 30,0000 台服务器上的应用部署，但是在国内，依

然使用着传统的 Hadoop 大数据框架，所以国内使用 Mesos 框架的并不多，但是原理其实都

差不多。Spark 也在最近的版本中支持了 k8s 部署模式。给个链接大家自己感受一下：https://spark.apache.org/docs/latest/running-on-kubernetes.html

4、Windows 模式

在自己学习时，每次都需要启动虚拟机，启动集群，这是一个比较繁琐的过程，并且会占大量的系统资源，导致系统执行变慢，不仅仅影响学习效果，也影响学习进度， Spark 非常暖心地提供了可以在 windows 系统下启动本地集群的方式，这样，在不使用虚拟机的情况下，也能学习 Spark 的基本使用，摸摸哒！

四、Spark on YARN-cluster 任务执行流程

在YARN-Cluster模式中，当用户向YARN中提交一个应用程序后，YARN将分两个阶段运行该应用程序：

第一个阶段是把Spark的Driver作为一个ApplicationMaster在YARN集群中先启动；

第二个阶段是由ApplicationMaster创建应用程序，然后为它向ResourceManager申请资源，并启动Executor来运行Task，同时监控它的整个运行过程，直到运行完成

YARN-cluster的工作流程分为以下几个步骤

Spark Yarn Client向YARN中提交应用程序，包括ApplicationMaster程序、启动ApplicationMaster的命令、需要在Executor中运行的程序等
ResourceManager收到请求后，在集群中选择一个NodeManager，为该应用程序分配第一个Container，要求它在这个Container中启动应用程序的ApplicationMaster，其中ApplicationMaster进行SparkContext等的初始化
ApplicationMaster向ResourceManager注册，这样用户可以直接通过ResourceManage查看应用程序的运行状态，然后它将采用轮询的方式通过RPC协议为各个任务申请资源，并监控它们的运行状态直到运行结束
一旦ApplicationMaster申请到资源（也就是Container）后，便与对应的NodeManager通信，要求它在获得的Container中启动CoarseGrainedExecutorBackend，CoarseGrainedExecutorBackend启动后会向ApplicationMaster中的SparkContext注册并申请Task。这一点和Standalone模式一样，只不过SparkContext在Spark Application中初始化时，使用CoarseGrainedSchedulerBackend配合YarnClusterScheduler进行任务的调度，其中YarnClusterScheduler只是对TaskSchedulerImpl的一个简单包装，增加了对Executor的等待逻辑等
ApplicationMaster中的SparkContext分配Task给CoarseGrainedExecutorBackend执行，CoarseGrainedExecutorBackend运行Task并向ApplicationMaster汇报运行的状态和进度，以让ApplicationMaster随时掌握各个任务的运行状态，从而可以在任务失败时重新启动任务
应用程序运行完成后，ApplicationMaster向ResourceManager申请注销并关闭自己

提交应用命令：

bin/spark-submit \

--class org.apache.spark.examples.SparkPi \

--master yarn \

--deploy-mode cluster \

--driver-memory 1g \

--executor-memory 1g \

./examples/jars/spark-examples_2.12-3.0.0.jar \

//由于本地虚拟机内存条件限制所以最好在命令中加入

--driver-memory 1g --executor-memory 1g

五、Spark核心编程（重点）

1、数据结构

Spark 计算框架为了能够进行高并发和高吞吐的数据处理，封装了三大数据结构，用于处理不同的应用场景。三大数据结构分别是：

➢ RDD : 弹性分布式数据集

➢ 累加器：分布式共享只写变量

➢ 广播变量：分布式共享只读变量

2、RDD简介

RDD（Resilient Distributed Dataset）叫做弹性分布式数据集，是 Spark 中最基本的数据处理模型。代码中是一个抽象类，它代表一个弹性的、不可变、可分区、里面的元素可并行计算的集合。

RDD特性：

1.A list of partitions
RDD是一个由多个partition（某个节点里的某一片连续的数据）组成的的list；将数据加载为RDD时，一般会遵循数据的本地性（一般一个hdfs里的block会加载为一个partition）。

2.A function for computing each split

一个函数计算每一个分片，RDD的每个partition上面都会有function，也就是函数应用，其作用是实现RDD之间partition的转换。

3.A list of dependencies on other RDDs

RDD会记录它的依赖 ，依赖还具体分为宽依赖和窄依赖，但并不是所有的RDD都有依赖。为了容错（重算，cache，checkpoint），也就是说在内存中的RDD操作时出错或丢失会进行重算。

4.Optionally,a Partitioner for Key-value RDDs

可选项，如果RDD里面存的数据是key-value形式，则可以传递一个自定义的Partitioner进行重新分区，例如这里自定义的Partitioner是基于key进行分区，那则会将不同RDD里面的相同key的数据放到同一个partition里面

5.Optionally, a list of preferred locations to compute each split on

最优的位置去计算，也就是数据的本地性。

说RDD是弹性数据的表现：

3、RDD执行原理

RDD 是 Spark 框架中用于数据处理的核心模型，接下来我们看看，在 Yarn 环境中，RDD

的工作原理:

启动 Yarn 集群环境

Spark 通过申请资源创建调度节点和计算节点

Spark 框架根据需求将计算逻辑根据分区划分成不同的任务

调度节点将任务根据计算节点状态发送到对应的计算节点进行计算

从以上流程可以看出 RDD 在整个流程中主要用于将逻辑进行封装，并生成 Task 发送给

Executor 节点执行计算，接下来我们就一起看看 Spark 框架中 RDD 是具体是如何进行数据

处理的。

4、RDD的创建方式

1) 从集合（内存）中创建 RDD

从集合中创建 RDD，Spark 主要提供了两个方法：parallelize 和 makeRDD

val sparkConf = 
 new SparkConf().setMaster("local[*]").setAppName("spark") 
val sparkContext = new SparkContext(sparkConf) 
val rdd1 = sparkContext.parallelize( 
 List(1,2,3,4) 
) 
val rdd2 = sparkContext.makeRDD( 
 List(1,2,3,4) 
) 
rdd1.collect().foreach(println) 
rdd2.collect().foreach(println) 
sparkContext.stop()

2) 从外部存储（文件）创建 RDD

由外部存储系统的数据集创建 RDD 包括：本地的文件系统，所有 Hadoop 支持的数据集，

比如 HDFS、HBase 等。

val sparkConf = 
 new SparkConf().setMaster("local[*]").setAppName("spark") 
val sparkContext = new SparkContext(sparkConf) 
val fileRDD: RDD[String] = sparkContext.textFile("input") 
fileRDD.collect().foreach(println) 
sparkContext.stop()

3) 从其他 RDD 创建

主要是通过一个 RDD 运算完后，再产生新的 RDD。详

4) 直接创建 RDD（new）

使用 new 的方式直接构造 RDD，一般由 Spark 框架自身使用。

5、RDD 并行度与分区

默认情况下，Spark 可以将一个作业切分多个任务后，发送给 Executor 节点并行计算，而能

够并行计算的任务数量我们称之为并行度。这个数量可以在构建 RDD 时指定。记住，这里

的并行执行的任务数量，并不是指的切分任务的数量，不要混淆了。

val dataRDD: RDD[Int] = 
 sparkContext.makeRDD( 
 List(1,2,3,4), 4) //4 就是并行度

读取内存数据时，数据可以按照并行度的设定进行数据的分区操作，数据分区规则的

6、RDD基本算子（重中之重）

RDD有两种操作算⼦：

Transformation（转换）：Transformation属于延迟计算，当⼀个RDD转换成另⼀个RDD时并没有⽴即进⾏转换，仅仅是记住了数据集的逻辑操作

Action（执行）：触发Spark作业的运⾏，真正触发转换算⼦的计算

RDD 根据数据处理方式的不同将算子整体上分为 Value 类型、双 Value 类型和 Key-Value

类型

1）map

➢ 函数签名

def map[U: ClassTag](f: T => U): RDD[U]

➢ 函数说明

将处理的数据逐条进行映射转换，这里的转换可以是类型的转换，也可以是值的转换。

val dataRDD: RDD[Int] = sparkContext.makeRDD(List(1,2,3,4)) 
val dataRDD1: RDD[Int] = dataRDD.map( 
 num => {
  num * 2 
 } 
) 
val dataRDD2: RDD[String] = dataRDD1.map( 
 num => { 
 "" + num 
 } 
)

2) mapPartitions

➢ 函数签名

def mapPartitions[U: ClassTag]( f: Iterator[T] => Iterator[U], preservesPartitioning: Boolean = false): RDD[U]

➢ 函数说明

将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处

理，哪怕是过滤数据。

val dataRDD1: RDD[Int] = dataRDD.mapPartitions( 
 datas => { 
 datas.filter(_==2) 
 } )

3) mapPartitionsWithIndex

➢ 函数签名

def mapPartitionsWithIndex[U: ClassTag](

f: (Int, Iterator[T]) => Iterator[U],

preservesPartitioning: Boolean = false): RDD[U]

➢ 函数说明

将待处理的数据以分区为单位发送到计算节点进行处理，这里的处理是指可以进行任意的处

理，哪怕是过滤数据，在处理时同时可以获取当前分区索引。

val dataRDD1 = dataRDD.mapPartitionsWithIndex( 
 (index, datas) => { 
 datas.map(index, _) 
 } 
)

4) flatMap

➢ 函数签名

def flatMap[U: ClassTag](f: T => TraversableOnce[U]): RDD[U]

➢ 函数说明

将处理的数据进行扁平化后再进行映射处理，所以算子也称之为扁平映射

val dataRDD = sparkContext.makeRDD(List( 
 List(1,2),List(3,4) 
),1) 
val dataRDD1 = dataRDD.flatMap( 
 list => list 
)

5) groupBy

➢ 函数签名

def groupBy[K](f: T => K)(implicit kt: ClassTag[K]): RDD[(K, Iterable[T])]

➢ 函数说明

将数据根据指定的规则进行分组, 分区默认不变，但是数据会被打乱重新组合，我们将这样

的操作称之为 shuffle。极限情况下，数据可能被分在同一个分区中

一个组的数据在一个分区中，但是并不是说一个分区中只有一个组

val dataRDD = sparkContext.makeRDD(List(1,2,3,4),1) 
val dataRDD1 = dataRDD.groupBy( 
 _%2 
)

6) filter

➢ 函数签名

def filter(f: T => Boolean): RDD[T]

➢ 函数说明

将数据根据指定的规则进行筛选过滤，符合规则的数据保留，不符合规则的数据丢弃。

当数据进行筛选过滤后，分区不变，但是分区内的数据可能不均衡，生产环境下，可能会出

现数据倾斜。

val dataRDD = sparkContext.makeRDD(List( 
 1,2,3,4 
),1) 
val dataRDD1 = dataRDD.filter(_%2 == 0)

7) distinct

➢ 函数签名

def distinct()(implicit ord: Ordering[T] = null): RDD[T]

def distinct(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

➢ 函数说明

将数据集中重复的数据去重

8) repartition

➢ 函数签名

def repartition(numPartitions: Int)(implicit ord: Ordering[T] = null): RDD[T]

➢ 函数说明

该操作内部其实执行的是 coalesce 操作，参数 shuffle 的默认值为 true。无论是将分区数多的

RDD 转换为分区数少的 RDD，还是将分区数少的 RDD 转换为分区数多的 RDD，repartition

操作都可以完成，因为无论如何都会经 shuffle 过程。

val dataRDD = sparkContext.makeRDD(List( 
 1,2,3,4,1,2 
),2) 
val dataRDD1 = dataRDD.repartition(4)

9) sortBy

➢ 函数签名

def sortBy[K](

f: (T) => K,

ascending: Boolean = true,

numPartitions: Int = this.partitions.length)

(implicit ord: Ordering[K], ctag: ClassTag[K]): RDD[T]

➢ 函数说明

该操作用于排序数据。在排序之前，可以将数据通过 f 函数进行处理，之后按照 f 函数处理

的结果进行排序，默认为升序排列。排序后新产生的 RDD 的分区数与原 RDD 的分区数一

致。中间存在 shuffle 的过程

val dataRDD = sparkContext.makeRDD(List( 
 1,2,3,4,1,2 
),2) 
val dataRDD1 = dataRDD.sortBy(num=>num, false, 4)

10) union

➢ 函数签名

def union(other: RDD[T]): RDD[T]

➢ 函数说明

对源 RDD 和参数 RDD 求并集后返回一个新的 RDD

11) zip

➢ 函数签名

def zip[U: ClassTag](other: RDD[U]): RDD[(T, U)]

➢ 函数说明

将两个 RDD 中的元素，以键值对的形式进行合并。其中，键值对中的 Key 为第 1 个 RDD

中的元素，Value 为第 2 个 RDD 中的相同位置的元素。

val dataRDD1 = sparkContext.makeRDD(List(1,2,3,4)) 
val dataRDD2 = sparkContext.makeRDD(List(3,4,5,6)) 
val dataRDD = dataRDD1.zip(dataRDD2)

12) partitionBy

➢ 函数签名

def partitionBy(partitioner: Partitioner): RDD[(K, V)]

➢ 函数说明

将数据按照指定 Partitioner 重新进行分区。Spark 默认的分区器是 HashPartitioner

val rdd: RDD[(Int, String)] = 
 sc.makeRDD(Array((1,"aaa"),(2,"bbb"),(3,"ccc")),3) 
import org.apache.spark.HashPartitioner
val rdd2: RDD[(Int, String)] = 
 rdd.partitionBy(new HashPartitioner(2))

13) reduceByKey

➢ 函数签名

def reduceByKey(func: (V, V) => V): RDD[(K, V)]

def reduceByKey(func: (V, V) => V, numPartitions: Int): RDD[(K, V)]

➢ 函数说明

可以将数据按照相同的 Key 对 Value 进行聚合

val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3))) 
val dataRDD2 = dataRDD1.reduceByKey(_+_) 
val dataRDD3 = dataRDD1.reduceByKey(_+_, 2)

14) groupByKey

➢ 函数签名

def groupByKey(): RDD[(K, Iterable[V])]

def groupByKey(numPartitions: Int): RDD[(K, Iterable[V])]

def groupByKey(partitioner: Partitioner): RDD[(K, Iterable[V])]

➢ 函数说明

将数据源的数据根据 key 对 value 进行分组

val dataRDD1 = 
 sparkContext.makeRDD(List(("a",1),("b",2),("c",3))) 
val dataRDD2 = dataRDD1.groupByKey() 
val dataRDD3 = dataRDD1.groupByKey(2) 
val dataRDD4 = dataRDD1.groupByKey(new HashPartitioner(2))

14) aggregateByKey

➢ 函数签名

def aggregateByKey[U: ClassTag](zeroValue: U)(seqOp: (U, V) => U,

combOp: (U, U) => U): RDD[(K, U)]

➢ 函数说明

将数据根据不同的规则进行分区内计算和分区间计算

val dataRDD1 = 
 sparkContext.makeRDD(List(("a",1),("b",2),("c",3))) 
val dataRDD2 = 
 dataRDD1.aggregateByKey(0)(_+_,_+_)

15) sortByKey

➢ 函数签名

def sortByKey(ascending: Boolean = true, numPartitions: Int = self.partitions.length): RDD[(K, V)]

➢ 函数说明

在一个(K,V)的 RDD 上调用，K 必须实现 Ordered 接口(特质)，返回一个按照 key 进行排序

的

val dataRDD1 = sparkContext.makeRDD(List(("a",1),("b",2),("c",3))) 
val sortRDD1: RDD[(String, Int)] = dataRDD1.sortByKey(true) 
val sortRDD1: RDD[(String, Int)] = dataRDD1.sortByKey(false)

16) join

➢ 函数签名

def join[W](other: RDD[(K, W)]): RDD[(K, (V, W))]

➢ 函数说明

在类型为(K,V)和(K,W)的 RDD 上调用，返回一个相同 key 对应的所有元素连接在一起的

(K,(V,W))的 RDD

val rdd: RDD[(Int, String)] = sc.makeRDD(Array((1, "a"), (2, "b"), (3, "c"))) 
val rdd1: RDD[(Int, Int)] = sc.makeRDD(Array((1, 4), (2, 5), (3, 6))) 
rdd.join(rdd1).collect().foreach(println)

下面为行动算子

17) reduce

➢ 函数签名

def reduce(f: (T, T) => T): T

➢ 函数说明

聚集 RDD 中的所有元素，先聚合分区内数据，再聚合分区间数据

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4)) 
// 聚合数据 
val reduceResult: Int = rdd.reduce(_+_)

18) collect

➢ 函数签名

def collect(): Array[T]

➢ 函数说明

在驱动程序中，以数组 Array 的形式返回数据集的所有元素

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4)) 
// 收集数据到 Driver 
rdd.collect().foreach(println)

19) count

➢ 函数签名

def count(): Long

➢ 函数说明

返回 RDD 中元素的个数

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4)) 
// 返回 RDD 中元素的个数 
val countResult: Long = rdd.count()

20) take

➢ 函数签名

def take(num: Int): Array[T]

➢ 函数说明

返回一个由 RDD 的前 n 个元素组成的数组

vval rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4)) 
// 返回 RDD 中元素的个数 
val takeResult: Array[Int] = rdd.take(2) 
println(takeResult.mkString(","))

21) aggregate

➢ 函数签名

def aggregate[U: ClassTag](zeroValue: U)(seqOp: (U, T) => U, combOp: (U, U) => U): U

➢ 函数说明

分区的数据通过初始值和分区内的数据进行聚合，然后再和初始值进行分区间的数据聚合

val rdd: RDD[Int] = sc.makeRDD(List(1, 2, 3, 4), 8) 
// 将该 RDD 所有元素相加得到结果 
//val result: Int = rdd.aggregate(0)(_ + _, _ + _)

22) save 相关算子

➢ 函数签名

def saveAsTextFile(path: String): Unit

def saveAsObjectFile(path: String): Unit

def saveAsSequenceFile(

path: String,

codec: Option[Class[_ <: CompressionCodec]] = None): Unit

➢ 函数说明

将数据保存到不同格式的文件中

// 保存成 Text 文件 
rdd.saveAsTextFile("output") 
// 序列化成对象保存到文件 
rdd.saveAsObjectFile("output1") 
// 保存成 Sequencefile 文件 
rdd.map((_,1)).saveAsSequenceFile("output2")

23) foreach

➢ 函数签名

def foreach(f: T => Unit): Unit = withScope {

val cleanF = sc.clean(f)

sc.runJob(this, (iter: Iterator[T]) => iter.foreach(cleanF))

}

➢ 函数说明

分布式遍历 RDD 中的每一个元素，调用指定函数

val rdd: RDD[Int] = sc.makeRDD(List(1,2,3,4)) 
// 收集后打印 
rdd.map(num=>num).collect().foreach(println) 
println("****************") 
// 分布式打印 
rdd.foreach(println)

7、RDD的依赖关系

RDD 只支持粗粒度转换，即在大量记录上执行的单个操作。将创建 RDD 的一系列 Lineage

（血统）记录下来，以便恢复丢失的分区。RDD 的 Lineage 会记录 RDD 的元数据信息和转

换行为，当该 RDD 的部分分区数据丢失时，它可以根据这些信息来重新运算和恢复丢失的

数据分区。

这里所谓的依赖关系，其实就是两个相邻 RDD 之间的关系

1）宽依赖

窄依赖表示每一个父(上游)RDD 的 Partition 最多被子（下游）RDD 的一个 Partition 使用，

窄依赖我们形象的比喻为独生子女。

2）窄依赖

宽依赖表示同一个父（上游）RDD 的 Partition 被多个子（下游）RDD 的 Partition 依赖，会

引起 Shuffle，总结：宽依赖我们形象的比喻为多生。

3）RDD 任务划分

其实有shuffle过程的就是宽依赖

RDD 任务切分中间分为：Application、Job、Stage 和 Task

Application：初始化一个 SparkContext 即生成一个 Application；
Job：一个 Action 算子就会生成一个 Job；
Stage：Stage 等于宽依赖(ShuffleDependency)的个数加 1，因为有一个ResultStage是一定有；
Task：一个 Stage 阶段中，最后一个 RDD 的分区个数就是 Task 的个数。

注意：Application->Job->Stage->Task 每一层都是 1 对 n 的关系。

8、RDD 持久化

1) RDD Cache 缓存

RDD 通过 Cache 或者 Persist 方法将前面的计算结果缓存，默认情况下会把数据以缓存

在 JVM 的堆内存中。但是并不是这两个方法被调用时立即缓存，而是触发后面的 action 算

子时，该 RDD 将会被缓存在计算节点的内存中，并供后面重用。

// cache 操作会增加血缘关系，不改变原有的血缘关系 
println(wordToOneRdd.toDebugString) 
// 数据缓存。 
wordToOneRdd.cache() 
// 可以更改存储级别 
//mapRdd.persist(StorageLevel.MEMORY_AND_DISK_2)

存储级别：

2) RDD CheckPoint 检查点

所谓的检查点其实就是通过将 RDD 中间结果写入磁盘由于血缘依赖过长会造成容错成本过高，这样就不如在中间阶段做检查点容错，如果检查点之后有节点出现问题，可以从检查点开始重做血缘，减少了开销。对 RDD 进行 checkpoint 操作并不会马上被执行，必须执行 Action 操作才能触发。

// 设置检查点路径 
sc.setCheckpointDir("./checkpoint1")

建议对 checkpoint()的 RDD 使用 Cache 缓存，这样 checkpoint 的 job 只需从 Cache 缓存

中读取数据即可，否则需要再从头计算一次 RDD

9、RDD分区器

Spark 目前支持 Hash 分区和 Range 分区，和用户自定义分区。Hash 分区为当前的默认

分区。分区器直接决定了 RDD 中分区的个数、RDD 中每条数据经过 Shuffle 后进入哪个分

区，进而决定了 Reduce 的个数。

➢ 只有 Key-Value 类型的 RDD 才有分区器，非 Key-Value 类型的 RDD 分区的值是 None

➢ 每个 RDD 的分区 ID 范围：0 ~ (numPartitions - 1)，决定这个值是属于那个分区的。

10、RDD 文件读取与保存

➢ text 文件

// 读取输入文件 
val inputRDD: RDD[String] = sc.textFile("input/1.txt") 
// 保存数据 
inputRDD.saveAsTextFile("output")

➢ sequence 文件

SequenceFile 文件是 Hadoop 用来存储二进制形式的 key-value 对而设计的一种平面文件(Flat 
File)。在 SparkContext 中，可以调用 sequenceFile[keyClass, valueClass](path)。 
// 保存数据为 SequenceFile 
dataRDD.saveAsSequenceFile("output") 
// 读取 SequenceFile 文件 
sc.sequenceFile[Int,Int]("output").collect().foreach(println)

➢ object 对象文件

对象文件是将对象序列化后保存的文件，采用 Java 的序列化机制。可以通过 objectFile[T:

ClassTag](path)函数接收一个路径，读取对象文件，返回对应的 RDD，也可以通过调用

saveAsObjectFile()实现对对象文件的输出。因为是序列化所以要指定类型。

// 保存数据 
dataRDD.saveAsObjectFile("output") 
// 读取数据 
sc.objectFile[Int]("output").collect().foreach(println)

11、累加器

累加器用来把 Executor 端变量信息聚合到 Driver 端。在 Driver 程序中定义的变量，在

Executor 端的每个 Task 都会得到这个变量的一份新的副本，每个 task 更新这些副本的值后，

传回 Driver 端进行 merge。

自定义累加器

// 自定义累加器 
// 1. 继承 AccumulatorV2，并设定泛型 
// 2. 重写累加器的抽象方法 
class WordCountAccumulator extends AccumulatorV2[String, mutable.Map[String, 
Long]]{ 
var map : mutable.Map[String, Long] = mutable.Map() 
// 累加器是否为初始状态 
override def isZero: Boolean = { 
 map.isEmpty 
} 
// 复制累加器 
override def copy(): AccumulatorV2[String, mutable.Map[String, Long]] = { 
 new WordCountAccumulator 
} 
// 重置累加器 
override def reset(): Unit = { 
 map.clear() 
} 
// 向累加器中增加数据 (In) 
override def add(word: String): Unit = { 
 // 查询 map 中是否存在相同的单词 
 // 如果有相同的单词，那么单词的数量加 1 
 // 如果没有相同的单词，那么在 map 中增加这个单词 
 map(word) = map.getOrElse(word, 0L) + 1L 
}
// 合并累加器 
override def merge(other: AccumulatorV2[String, mutable.Map[String, Long]]): 
Unit = { 
 val map1 = map 
 val map2 = other.value 
 // 两个 Map 的合并 
 map = map1.foldLeft(map2)( 
 ( innerMap, kv ) => { 
 innerMap(kv._1) = innerMap.getOrElse(kv._1, 0L) + kv._2 
 innerMap 
 } 
 ) 
} 
// 返回累加器的结果 （Out） 
override def value: mutable.Map[String, Long] = map 
}

12、广播变量

广播变量用来高效分发较大的对象。向所有工作节点发送一个较大的只读值，以供一个

或多个 Spark 操作使用。比如，如果你的应用需要向所有节点发送一个较大的只读查询表，

广播变量用起来都很顺手。在多个并行操作中使用同一个变量，但是 Spark 会为每个任务

分别发送。

val rdd1 = sc.makeRDD(List( ("a",1), ("b", 2), ("c", 3), ("d", 4) ),4) 
val list = List( ("a",4), ("b", 5), ("c", 6), ("d", 7) ) 
// 声明广播变量 
val broadcast: Broadcast[List[(String, Int)]] = sc.broadcast(list) 
val resultRDD: RDD[(String, (Int, Int))] = rdd1.map { 
 case (key, num) => { 
 var num2 = 0 
 // 使用广播变量 
 for ((k, v) <- broadcast.value) { 
 if (k == key) { 
 num2 = v 
 } 
 } 
 (key, (num, num2)) 
 } 
}

13、Spark版本的WordCount

六、SparkSql

Hive 是早期唯一运行在 Hadoop 上的 SQL-on-Hadoop 工具。但是 MapReduce 计算过程

中大量的中间磁盘落地过程消耗了大量的 I/O，降低的运行效率，为了提高 SQL-on-Hadoop

的效率，大量的 SQL-on-Hadoop 工具开始产生，其中表现较为突出的是：

⚫ Drill

⚫ Impala

⚫ Shark

SparkSQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive，只是兼容 Hive；而

Hive on Spark 是一个 Hive 的发展计划，该计划将 Spark 作为 Hive 的底层引擎之一，也就是

说，Hive 将不再受限于一个引擎，可以采用 Map-Reduce、Tez、Spark 等引擎

1、数据类型

对于开发人员来讲，SparkSQL 可以简化 RDD 的开发，提高开发效率，且执行效率非

常快，所以实际工作中，基本上采用的就是 SparkSQL。Spark SQL 为了简化 RDD 的开发，

提高开发效率，提供了 2 个编程抽象，类似 Spark Core 中的 RDD

➢ DataFrame

➢ DataSet

DataFrame 是什么

在 Spark 中，DataFrame 是一种以 RDD 为基础的分布式数据集，类似于传统数据库中

的二维表格。DataFrame 与 RDD 的主要区别在于，前者带有 schema 元信息，即 DataFrame

所表示的二维表数据集的每一列都带有名称和类型。这使得 Spark SQL 得以洞察更多的结构

信息，从而对藏于 DataFrame 背后的数据源以及作用于 DataFrame 之上的变换进行了针对性

的优化，最终达到大幅提升运行时效率的目标。反观 RDD，由于无从得知所存数据元素的

具体内部结构，Spark Core 只能在 stage 层面进行简单、通用的流水线优化。

DataSet 是什么

DataSet 是分布式数据集合。DataSet 是 Spark 1.6 中添加的一个新抽象，是 DataFrame

的一个扩展。它提供了 RDD 的优势（强类型，使用强大的 lambda 函数的能力）以及 Spark

SQL 优化执行引擎的优点。DataSet 也可以使用功能性的转换（操作 map，flatMap，filter

等等）。

➢ DataSet 是 DataFrame API 的一个扩展，是 SparkSQL 最新的数据抽象

➢ 用户友好的 API 风格，既具有类型安全检查也具有 DataFrame 的查询优化特性；

➢ 用样例类来对 DataSet 中定义数据的结构信息，样例类中每个属性的名称直接映射到

DataSet 中的字段名称；

➢ DataSet 是强类型的。比如可以有 DataSet[Car]，DataSet[Person]。

➢ DataFrame 是 DataSet 的特列，DataFrame=DataSet[Row] ，所以可以通过 as 方法将

DataFrame 转换为 DataSet。Row 是一个类型，跟 Car、Person 这些的类型一样，所有的

表结构信息都用 Row 来表示。获取数据时需要指定顺序

2、SparkSql核心编程

在老的版本中，SparkSQL 提供两种 SQL 查询起始点：一个叫 SQLContext，用于 Spark

自己提供的 SQL 查询；一个叫 HiveContext，用于连接 Hive 的查询。

SparkSession 是 Spark 最新的 SQL 查询起始点，实质上是 SQLContext 和 HiveContext

的组合，所以在 SQLContex 和 HiveContext 上可用的 API 在 SparkSession 上同样是可以使用

的。SparkSession 内部封装了 SparkContext，所以计算实际上是由 sparkContext 完成的。当

我们使用 spark-shell 的时候, spark 框架会自动的创建一个名称叫做 spark 的 SparkSession 对

象

（1）创建 DataFrame

在 Spark SQL 中 SparkSession 是创建 DataFrame 和执行 SQL 的入口，创建 DataFrame

有三种方式：通过 Spark 的数据源进行创建；从一个存在的 RDD 进行转换；还可以从 Hive

Table 进行查询返回。

➢ 在 spark 的 bin/data 目录中创建 user.json 文件

{"username":"zhangsan","age":20}

➢ 读取 json 文件创建 DataFrame

scala> val df = spark.read.json("data/user.json") 
df: org.apache.spark.sql.DataFrame = [age: bigint， username: string]

注意：如果从内存中获取数据，spark 可以知道数据类型具体是什么。如果是数字，默认作

为 Int 处理；但是从文件中读取的数字，不能确定是什么类型，所以用 bigint 接收，可以和

Long 类型转换，但是和 Int 不能进行转换

➢ 展示结果

+---+--------+ 
|age|username| 
+---+--------+ 
| 20|zhangsan| 
+---+--------+

（2）SQL 语法

SQL 语法风格是指我们查询数据的时候使用 SQL 语句来查询，这种风格的查询必须要

有临时视图或者全局视图来辅助

读取 JSON 文件创建 DataFrame

scala> val df = spark.read.json("data/user.json") 
df: org.apache.spark.sql.DataFrame = [age: bigint， username: string]

对 DataFrame 创建一个临时表

scala> df.createOrReplaceTempView("people")

通过 SQL 语句实现查询全表

scala> val sqlDF = spark.sql("SELECT * FROM people") 
sqlDF: org.apache.spark.sql.DataFrame = [age: bigint， name: string]

结果展示

scala> sqlDF.show 
+---+--------+ 
|age|username| 
+---+--------+ 
| 20|zhangsan| 
| 30| lisi| 
| 40| wangwu| 
+---+--------+

注意：普通临时表是 Session 范围内的，如果想应用范围内有效，可以使用全局临时表。使

用全局临时表时需要全路径访问，如：global_temp.people

对于 DataFrame 创建一个全局表

scala> df.createGlobalTempView("people")

通过 SQL 语句实现查询全表

scala> spark.sql("SELECT * FROM global_temp.people").show() 
+---+--------+ 
|age|username| 
+---+--------+ 
| 20|zhangsan| 
| 30| lisi| 
| 40| wangwu| 
+---+--------+ 
scala> spark.newSession().sql("SELECT * FROM global_temp.people").show() 
+---+--------+ 
|age|username| 
+---+--------+ 
| 20|zhangsan| 
| 30| lisi| 
| 40| wangwu| 
+---+--------+

（3）DSL 语法

DataFrame 提供一个特定领域语言(domain-specific language, DSL)去管理结构化的数据。

可以在 Scala, Java, Python 和 R 中使用 DSL，使用 DSL 语法风格不必去创建临时视图了

创建一个 DataFrame

scala> val df = spark.read.json("data/user.json") 
df: org.apache.spark.sql.DataFrame = [age: bigint， name: string]

查看 DataFrame 的 Schema 信息

scala> df.printSchema 
root 
|-- age: Long (nullable = true) 
|-- username: string (nullable = true)

只查看"username"列数据，

scala> df.select("username").show() 
+--------+ 
|username| 
+--------+ 
|zhangsan| 
| lisi| 
| wangwu| 
+--------+

查看"username"列数据以及"age+1"数据

注意:涉及到运算的时候, 每列都必须使用$, 或者采用引号表达式：单引号+字段名

scala> df.select($"username",$"age" + 1).show 
scala> df.select('username, 'age + 1).show()

（4）创建DataSet

1）使用样例类序列创建 DataSet

scala> case class Person(name: String, age: Long) 
defined class Person 
scala> val caseClassDS = Seq(Person("zhangsan",2)).toDS() 
caseClassDS: org.apache.spark.sql.Dataset[Person] = [name: string, age: Long] 
scala> caseClassDS.show 
+---------+---+ 
| name|age| 
+---------+---+ 
| zhangsan| 2| 
+---------+---+

2）使用基本类型的序列创建 DataSet

scala> val ds = Seq(1,2,3,4,5).toDS 
ds: org.apache.spark.sql.Dataset[Int] = [value: int] 
scala> ds.show 
+-----+ 
|value| 
+-----+ 
| 1| 
| 2| 
| 3| 
| 4| 
| 5| 
+-----+

（5）RDD、DF、DS的相互转换

\1. rdd转ds：.toDS

\2. ds转rdd：样例类rdd.toDS

\3. df转ds（加上类型）：df.as[样例类]

\4. ds 转df（去掉类型）：ds.toDF

\5. rdd ódf ó ds

（6）自定义函数：

UDF：自定义函数

UDAF：聚合函数

（7）保存数据

df.write.save 是保存数据的通用方法

scala>df.write. 
csv jdbc json orc parquet textFile…

（7）数据源

1）mysql

Spark SQL 可以通过 JDBC 从关系型数据库中读取数据的方式创建 DataFrame，通过对

DataFrame 一系列的计算后，还可以将数据再写回关系型数据库中。如果使用 spark-shell 操

作，可在启动 shell 时指定相关的数据库驱动路径或者将相关的数据库驱动放到 spark 的类

路径下。

bin/spark-shell 
--jars mysql-connector-java-5.1.27-bin.jar

我们这里只演示在 Idea 中通过 JDBC 对 Mysql 进行操作

1）导入依赖

<dependency> 
 <groupId>mysql</groupId> 
 <artifactId>mysql-connector-java</artifactId> 
 <version>5.1.27</version> 
</dependency>

2）读取数据

val conf: SparkConf = new 
SparkConf().setMaster("local[*]").setAppName("SparkSQL") 
//创建 SparkSession 对象 
val spark: SparkSession = SparkSession.builder().config(conf).getOrCreate() 
import spark.implicits._ 
//方式 1：通用的 load 方法读取 
spark.read.format("jdbc") 
 .option("url", "jdbc:mysql://linux1:3306/spark-sql") 
 .option("driver", "com.mysql.jdbc.Driver")
 .option("user", "root") 
 .option("password", "123123") 
 .option("dbtable", "user") 
 .load().show 
//方式 2:通用的 load 方法读取 参数另一种形式 
spark.read.format("jdbc") 
 .options(Map("url"->"jdbc:mysql://linux1:3306/spark-sql?user=root&password= 
123123", 
 "dbtable"->"user","driver"->"com.mysql.jdbc.Driver")).load().show 
//方式 3:使用 jdbc 方法读取 
val props: Properties = new Properties() 
props.setProperty("user", "root") 
props.setProperty("password", "123123") 
val df: DataFrame = spark.read.jdbc("jdbc:mysql://linux1:3306/spark-sql", 
"user", props) 
df.show 
//释放资源 
spark.stop()

2）hive

Apache Hive 是 Hadoop 上的 SQL 引擎，Spark SQL 编译时可以包含 Hive 支持，也

可以不包含。包含 Hive 支持的 Spark SQL 可以支持 Hive 表访问、UDF (用户自定义函数)

以及 Hive 查询语言(HiveQL/HQL)等。需要强调的一点是，如果要在 Spark SQL 中包含

Hive 的库，并不需要事先安装 Hive。一般来说，最好还是在编译 Spark SQL 时引入 Hive

支持，这样就可以使用这些特性了。如果你下载的是二进制版本的 Spark，它应该已经在编

译时添加了 Hive 支持。

如果想连接外部已经部署好的 Hive，需要通过以下几个步骤：

➢ Spark 要接管 Hive 需要把 hive-site.xml 拷贝到 conf/目录下

➢ 把 Mysql 的驱动 copy 到 jars/目录下

➢ 如果访问不到 hdfs，则需要把 core-site.xml 和 hdfs-site.xml 拷贝到 conf/目录下

➢ 重启 spark-shell

1）导入依赖

<dependency> 
 <groupId>org.apache.spark</groupId> 
 <artifactId>spark-hive_2.12</artifactId> 
 <version>3.0.0</version> 
</dependency> 
<dependency> 
 <groupId>org.apache.hive</groupId> 
 <artifactId>hive-exec</artifactId> 
 <version>1.2.1</version> 
</dependency> 
<dependency> 
 <groupId>mysql</groupId> 
 <artifactId>mysql-connector-java</artifactId> 
 <version>5.1.27</version> 
</dependency>

2）将 hive-site.xml 文件拷贝到项目的 resources 目录中，代码实现

//创建 SparkSession 
val spark: SparkSession = SparkSession 
 .builder() 
 .enableHiveSupport() 
 .master("local[*]") 
 .appName("sql") 
 .getOrCreate()

注意：在开发工具中创建数据库默认是在本地仓库，通过参数修改数据库仓库的地址:，可以代码最前面增加如下代码解决：

System.setProperty("HADOOP_USER_NAME", "root")

此处的 root 改为你们自己的 hadoop 用户名称

七、SparkStreaming

1、数据类型

Discretized Stream 是 Spark Streaming 的基础抽象，代表持续性的数据流和经过各种 Spark 原语操作后的结果数据流。在内部实现上，DStream 是一系列连续的 RDD 来表示。每个 RDD 含有

一段时间间隔内的数据。

2、WordCount简单案例

Spark 流使得构建可扩展的容错流应用程序变得更加容易。

Spark Streaming 用于流式数据的处理。Spark Streaming 支持的数据输入源很多，例如：Kafka、

Flume、Twitter、ZeroMQ 和简单的 TCP 套接字等等。数据输入后可以用 Spark 的高度抽象原语

如：map、reduce、join、window 等进行运算。而结果也能保存在很多地方，如 HDFS，数据库等。

WordCount 案例实操

➢ 需求：使用 netcat 工具向 9999 端口不断的发送数据，通过 SparkStreaming 读取端口数据并

统计不同单词出现的次数

添加依赖

<dependency> 
 <groupId>org.apache.spark</groupId> 
 <artifactId>spark-streaming_2.12</artifactId> 
 <version>3.0.0</version> 
</dependency>

编写代码

object StreamWordCount { 
 def main(args: Array[String]): Unit = { 
 //1.初始化 Spark 配置信息 
 val sparkConf = new 
SparkConf().setMaster("local[*]").setAppName("StreamWordCount") 
 //2.初始化 SparkStreamingContext 
 val ssc = new StreamingContext(sparkConf, Seconds(3)) 
 //3.通过监控端口创建 DStream，读进来的数据为一行行 
 val lineStreams = ssc.socketTextStream("linux1", 9999) 
 //将每一行数据做切分，形成一个个单词 
 val wordStreams = lineStreams.flatMap(_.split(" ")) 
 //将单词映射成元组（word,1） 
 val wordAndOneStreams = wordStreams.map((_, 1)) 
 //将相同的单词次数做统计 
 val wordAndCountStreams = wordAndOneStreams.reduceByKey(_+_) 
 //打印 
 wordAndCountStreams.print() 
 //启动 SparkStreamingContext 
 ssc.start() 
 ssc.awaitTermination() 
 } 
}

启动程序并通过 netcat 发送数据：

nc -lk 9999 
hello spark

3、数据源

1）自定义数据源

需要继承 Receiver，并实现 onStart、onStop 方法来自定义数据源采集，自定义数据源，实现监控某个端口号，获取该端口号内容。

2） Kafka 数据源

ReceiverAPI：需要一个专门的 Executor 去接收数据，然后发送给其他的 Executor 做计算。存在

的问题，接收数据的 Executor 和计算的 Executor 速度会有所不同，特别在接收数据的 Executor

速度大于计算的 Executor 速度，会导致计算数据的节点内存溢出。早期版本中提供此方式，当

前版本不适用

DirectAPI：是由计算的 Executor 来主动消费 Kafka 的数据，速度由自身控制。

1）导入依赖

<dependency> 
 <groupId>org.apache.spark</groupId> 
 <artifactId>spark-streaming-kafka-0-10_2.12</artifactId> 
 <version>3.0.0</version> 
</dependency> 
<dependency> 
 <groupId>com.fasterxml.jackson.core</groupId> 
 <artifactId>jackson-core</artifactId> 
 <version>2.10.1</version>
</dependency>

2）编写代码

import org.apache.kafka.clients.consumer.{ConsumerConfig, ConsumerRecord} 
import org.apache.spark.SparkConf 
import org.apache.spark.streaming.dstream.{DStream, InputDStream} 
import org.apache.spark.streaming.kafka010.{ConsumerStrategies, KafkaUtils, 
LocationStrategies} 
import org.apache.spark.streaming.{Seconds, StreamingContext} 
object DirectAPI { 
 def main(args: Array[String]): Unit = { 
 //1.创建 SparkConf 
 val sparkConf: SparkConf = new 
SparkConf().setAppName("ReceiverWordCount").setMaster("local[*]") 
 //2.创建 StreamingContext 
 val ssc = new StreamingContext(sparkConf, Seconds(3)) 
 //3.定义 Kafka 参数 
 val kafkaPara: Map[String, Object] = Map[String, Object]( 
 ConsumerConfig.BOOTSTRAP_SERVERS_CONFIG -> 
"linux1:9092,linux2:9092,linux3:9092", 
 ConsumerConfig.GROUP_ID_CONFIG -> "atguigu", 
 "key.deserializer" -> 
"org.apache.kafka.common.serialization.StringDeserializer", 
 "value.deserializer" -> 
"org.apache.kafka.common.serialization.StringDeserializer" 
 ) 
 //4.读取 Kafka 数据创建 DStream 
 val kafkaDStream: InputDStream[ConsumerRecord[String, String]] = 
KafkaUtils.createDirectStream[String, String](ssc, 
 LocationStrategies.PreferConsistent, 
 ConsumerStrategies.Subscribe[String, String](Set("atguigu"), kafkaPara)) 
 //5.将每条消息的 KV 取出 
 val valueDStream: DStream[String] = kafkaDStream.map(record => record.value()) 
 //6.计算 WordCount 
 valueDStream.flatMap(_.split(" ")) 
 .map((_, 1)) 
 .reduceByKey(_ + _) 
 .print() 
 //7.开启任务 
 ssc.start() 
 ssc.awaitTermination() 
 } 
}

4、DStream 转换

DStream 上的操作与 RDD 的类似，分为 Transformations（转换）和 Output Operations（输

出）两种，此外转换操作中还有一些比较特殊的原语，如：updateStateByKey()、transform()以及

各种 Window 相关的原语。

1）Transform

Transform 允许 DStream 上执行任意的 RDD-to-RDD 函数。即使这些函数并没有在 DStream

的 API 中暴露出来，通过该函数可以方便的扩展 Spark API。该函数每一批次调度一次。其实也

就是对 DStream 中的 RDD 应用转换。

object Transform { 
 def main(args: Array[String]): Unit = { 
 //创建 SparkConf 
 val sparkConf: SparkConf = new 
SparkConf().setMaster("local[*]").setAppName("WordCount") 
 //创建 StreamingContext 
 val ssc = new StreamingContext(sparkConf, Seconds(3)) 
 //创建 DStream 
 val lineDStream: ReceiverInputDStream[String] = ssc.socketTextStream("linux1", 
9999) 
 //转换为 RDD 操作 
 val wordAndCountDStream: DStream[(String, Int)] = lineDStream.transform(rdd => 
{ 
 val words: RDD[String] = rdd.flatMap(_.split(" ")) 
 val wordAndOne: RDD[(String, Int)] = words.map((_, 1)) 
 val value: RDD[(String, Int)] = wordAndOne.reduceByKey(_ + _) 
 value 
 }) 
 //打印 
 wordAndCountDStream.print 
 //启动 
 ssc.start() 
 ssc.awaitTermination() 
 } 
}

2）有状态转换，如wordCount

UpdateStateByKey 原语用于记录历史记录，有时，我们需要在 DStream 中跨批次维护状态(例

如流计算中累加 wordcount)。

updateStateByKey 操作使得我们可以在用新信息进行更新时保持任意的状态。为使用这个功

能，需要做下面两步：

\1. 定义状态，状态可以是一个任意的数据类型。

\2. 定义状态更新函数，用此函数阐明如何使用之前的状态和来自输入流的新值对状态进行更

新。

使用 updateStateByKey 需要对检查点目录进行配置，会使用检查点来保存状态。

更新版的 wordcount

编写代码

object WorldCount { 
 def main(args: Array[String]) { 
 // 定义更新状态方法，参数 values 为当前批次单词频度，state 为以往批次单词频度 
 val updateFunc = (values: Seq[Int], state: Option[Int]) => { 
 val currentCount = values.foldLeft(0)(_ + _)
 val previousCount = state.getOrElse(0) 
 Some(currentCount + previousCount) 
 } 
 val conf = new 
SparkConf().setMaster("local[*]").setAppName("NetworkWordCount") 
 val ssc = new StreamingContext(conf, Seconds(3)) 
 ssc.checkpoint("./ck") 
 // Create a DStream that will connect to hostname:port, like hadoop102:9999 
 val lines = ssc.socketTextStream("linux1", 9999) 
 // Split each line into words 
 val words = lines.flatMap(_.split(" ")) 
 //import org.apache.spark.streaming.StreamingContext._ // not necessary since 
Spark 1.3 
 // Count each word in each batch 
 val pairs = words.map(word => (word, 1)) 
 // 使用 updateStateByKey 来更新状态，统计从运行开始以来单词总的次数 
 val stateDstream = pairs.updateStateByKey[Int](updateFunc) 
 stateDstream.print() 
 ssc.start() // Start the computation 
 ssc.awaitTermination() // Wait for the computation to terminate 
 //ssc.stop() 
 } 
}

启动程序并向 9999 端口发送数据

nc -lk 9999 
Hello World 
Hello Scala

结果展示

------------------------------------------- 
Time: 1504685175000 ms 
------------------------------------------- 
------------------------------------------- 
Time: 1504685181000 ms 
------------------------------------------- 
(shi,1) 
(shui,1) 
(ni,1) 
------------------------------------------- 
Time: 1504685187000 ms 
------------------------------------------- 
(shi,1) 
(ma,1) 
(hao,1) 
(shui,1)

3）WindowOperations

Window Operations 可以设置窗口的大小和滑动窗口的间隔来动态的获取当前 Steaming 的允许

状态。所有基于窗口的操作都需要两个参数，分别为窗口时长以及滑动步长。

➢ 窗口时长：计算内容的时间范围；

➢ 滑动步长：隔多久触发一次计算。

注意：这两者都必须为采集周期大小的整数倍。

WordCount 第三版：3 秒一个批次，窗口 12 秒，滑步 6 秒。 
object WorldCount { 
 def main(args: Array[String]) { 
 val conf = new 
SparkConf().setMaster("local[2]").setAppName("NetworkWordCount") 
 val ssc = new StreamingContext(conf, Seconds(3)) 
 ssc.checkpoint("./ck") 
 // Create a DStream that will connect to hostname:port, like localhost:9999 
 val lines = ssc.socketTextStream("linux1", 9999) 
 // Split each line into words 
 val words = lines.flatMap(_.split(" ")) 
// Count each word in each batch 
 val pairs = words.map(word => (word, 1)) 
 val wordCounts = pairs.reduceByKeyAndWindow((a:Int,b:Int) => (a + 
b),Seconds(12), Seconds(6)) 
 // Print the first ten elements of each RDD generated in this DStream to the 
console 
 wordCounts.print() 
 ssc.start() // Start the computation 
 ssc.awaitTermination() // Wait for the computation to terminate 
 } 
}

4）DStream 输出

输出操作指定了对流数据经转化操作得到的数据所要执行的操作(例如把结果推入外部数据库

或输出到屏幕上)。与 RDD 中的惰性求值类似，如果一个 DStream 及其派生出的 DStream 都没

有被执行输出操作，那么这些 DStream 就都不会被求值。如果 StreamingContext 中没有设定输出

操作，整个 context 就都不会启动。

输出操作如下：

➢ print()：在运行流程序的驱动结点上打印 DStream 中每一批次数据的最开始 10 个元素。这

用于开发和调试。在 Python API 中，同样的操作叫 print()。

➢ saveAsTextFiles(prefix, [suffix])：以 text 文件形式存储这个 DStream 的内容。每一批次的存

储文件名基于参数中的 prefix 和 suffix。”prefix-Time_IN_MS[.suffix]”。

➢ saveAsObjectFiles(prefix, [suffix])：以 Java 对象序列化的方式将 Stream 中的数据保存为

SequenceFiles . 每一批次的存储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]". Python

中目前不可用。

➢ saveAsHadoopFiles(prefix, [suffix])：将 Stream 中的数据保存为 Hadoop files. 每一批次的存

储文件名基于参数中的为"prefix-TIME_IN_MS[.suffix]"。Python API 中目前不可用。

➢ foreachRDD(func)：这是最通用的输出操作，即将函数 func 用于产生于 stream 的每一个

RDD。其中参数传入的函数 func 应该实现将每一个 RDD 中数据推送到外部系统，如将

RDD 存入文件或者通过网络将其写入数据库。

八、调优

posted @ 2022-05-12 16:08 li-shan 阅读(80) 评论(0) 收藏举报

刷新页面返回顶部

木子山13

Spark拾遗

一、Spark简介

1、基本介绍

2、组件架构

3、性能特点

4、Hadoop OR Spark ？

二、Spark运行流程

1、Spark架构

2、常用术语

3、运行流程图

三、Spark运行模式

1、Spark on Standalone 模式

2、Spark on YARN 模式

3、K8S & Mesos 模式

4、Windows 模式

四、Spark on YARN-cluster 任务执行流程

五、Spark核心编程（重点）

1、数据结构

2、RDD简介

3、RDD执行原理

4、RDD的创建方式

5、RDD 并行度与分区

6、RDD基本算子（重中之重）

1）map

2) mapPartitions

3) mapPartitionsWithIndex

4) flatMap

5) groupBy

6) filter

7) distinct

8) repartition

9) sortBy

10) union

11) zip

12) partitionBy

13) reduceByKey

14) aggregateByKey

15) sortByKey

16) join

17) reduce

18) collect

19) count

20) take

21) aggregate

22) save 相关算子

23) foreach

7、RDD的依赖关系

1）宽依赖

2）窄依赖

3）RDD 任务划分

8、RDD 持久化

1) RDD Cache 缓存

2) RDD CheckPoint 检查点

9、RDD分区器

10、RDD 文件读取与保存

11、累加器

12、广播变量

13、Spark版本的WordCount

六、SparkSql

1、数据类型

2、SparkSql核心编程

（1）创建 DataFrame

（2）SQL 语法

（3）DSL 语法

（4）创建DataSet

（5）RDD、DF、DS的相互转换

（6） 自定义函数：

（7）保存数据

（7）数据源

1）mysql

2）hive

七、SparkStreaming

1、数据类型

2、WordCount简单案例

3、数据源

1）自定义数据源

2） Kafka 数据源

4、DStream 转换

1）Transform

（6）自定义函数：