Spark新特性（DataFrame/DataSet、Structured Streaming和Spark Session）

spark 新特性主要增加DataFrame/DataSet、Structured Streaming和Spark Session

1. DataFrame/DataSet主要替换之前的RDD，主要优势在执行效率、集群间通信、执行优化和GC开销比RDD有优势。

2. Structured Streaming大部分场景替换之前的Streaming，比之前的优势集中中简洁的模型、一致的API、卓越的性能和Event Time的支持

3. SparkSession的概念，它为用户提供了一个统一的切入点来使用Spark的各项功能，SparkConf、SparkContext和SQLContext都已经被封装在SparkSession当中。

1. DataFrame、Dataset

1.1 RDD与DataFrame、Dataset对比

	RDD	Dataset/DataFrame
执行效率	创建大量临时对象，对GC造成压力,优化需要对Spark运行时机制有一定的了解，门槛较高	利用Spark SQL引擎，自动优化
集群间的通信	集群间的通信,还是IO操作都需要对对象的结构和数据进行序列化和反序列化	当序列化数据时,Encoder产生字节码与off-heap进行交互,能够达到按需访问数据的效果,而不用反序列化整个对象
执行优化	需要用户自己优化（join之后又做了一次filter操作。如果原封不动地执行这个执行计划，最终的执行效率是不高的。因为join是一个代价较大的操作）	自动优化，能把能将filter下推到 join下方
GC开销	频繁的创建和销毁对象,GC开销高	引入off-heap:能使用JVM堆以外的内存,off-heap就像地盘,schema就像地图,Spark有地图又有自己地盘了,就可以自己说了算了,不再受JVM的限制,也就不再收GC的困扰了

1.2 快速理解Spark Dataset

case class People(id:Long, name:String, age:Int)

sc.makeRDD(seq(People(1, "zhangshan", 23),People(2, "lisi", 35)))

RDD中的两行数据

People(id =1, name=“zhangshan”,age=23)

People(id =1, name=“lisi”,age=35)

DataFrame的数据

id: bigint	name:String	age:bigint
1	zhangshan	23
2	lisi	35

DataFrame比RDD多了一个表头信息（Schema），像一张表了，DataFrame还配套了新的操作数据的方法，DataFrame API（如df.select())和SQL(select id, name from xx_table where ...)，通过DataFrame API或SQL处理数据，会自动经过Spark 优化器（Catalyst）的优化，即使你写的程序或SQL不高效，也可以运行的很快。

DataSet的数据。

Value:People[id:bingint, name:String,age:bigint]

People(id =1, name=“zhangshan”,age=23)

People(id =1, name=“lisi”,age=35)

相对于RDD，Dataset提供了强类型支持，也是在RDD的每行数据加了类型约束。使用Dataset API的程序，会经过Spark SQL的优化器进行优化，相比DataFrame，Dataset提供了编译时类型检查。

RDD转换DataFrame后不可逆，但RDD转换Dataset是可逆的

1.3 实践

创建RDD

通过RDD创建DataFrame，再通过DataFrame转换成RDD，发现RDD的类型变成了Row类型

通过RDD创建Dataset，再通过Dataset转换为RDD，发现RDD还是原始类型

经典的wordCount举例

使用Dataset API做转换操作

使用SQL进行单词统计

使用SQL进行排名分析

2. Structured Streaming

Structured Streaming 是一个可拓展，容错的，基于Spark SQL执行引擎的流处理引擎。使用小量的静态数据模拟流处理。伴随流数据的到来，Spark SQL引擎会逐渐连续处理数据并且更新结果到最终的Table中。你可以在Spark SQL上引擎上使用DataSet/DataFrame API处理流数据的聚集，事件窗口，和流与批次的连接操作等。最后Structured Streaming 系统快速，稳定，端到端的恰好一次保证，支持容错的处理。

2.1 Structured Streaming的Spark优势

Ø 简洁的模型。Structured Streaming的模型很简洁，易于理解。用户可以直接把一个流想象成是无限增长的表格。

Ø 一致的API。由于和Spark SQL共用大部分API，对Spark SQL熟悉的用户很容易上手，代码也十分简洁。同时批处理和流处理程序还可以共用代码，不需要开发两套不同的代码，显著提高了开发效率。

Ø 卓越的性能。Structured Streaming在与Spark SQL共用API的同时，也直接使用了Spark SQL的Catalyst优化器和Tungsten，数据处理性能十分出色。此外，Structured Streaming还可以直接从未来Spark SQL的各种性能优化中受益。

Ø Event Time的支持，Stream-Stream Join（2.3.0新增的功能），毫秒级延迟（2.3.0即将加入的Continuous Processing）

2.2 Structured Streaming介绍

Structured Streaming则是在Spark 2.0加入的经过重新设计的全新流式引擎。它的模型十分简洁，易于理解。一个流的数据源从逻辑上来说就是一个不断增长的动态表格，随着时间的推移，新数据被持续不断地添加到表格的末尾。用户可以使用Dataset/DataFrame或者SQL来对这个动态数据源进行实时查询。每次查询在逻辑上就是对当前的表格内容执行一次SQL查询。如何执行查询则是由用户通过触发器（Trigger）来设定。用户既可以设定定期执行，也可以让查询尽可能快地执行，从而达到实时的效果。一个流的输出有多种模式，既可以是基于整个输入执行查询后的完整结果，也可以选择只输出与上次查询相比的差异，或者就是简单地追加最新的结果。这个模型对于熟悉SQL的用户来说很容易掌握，对流的查询跟查询一个表格几乎完全一样。

对输入的查询将生成 “Result Table” （结果表）。每个 trigger interval （触发间隔）（例如，每 1 秒），新 row （行）将附加到 Input Table ，最终更新 Result Table 。无论何时更新 result table ，我们都希望将 changed result rows （更改的结果行）写入 external sink （外部接收器）。