7. Spark SQL
1.分析SparkSQL出现的原因,并简述SparkSQL的起源与发展。
SparkSQL出现的原因:
关系数据库已经很流行
关系数据库在大数据时代已经不能满足要求
首先,用户需要从不同数据源执行各种操作,包括结构化、半结构化和非结构化数据
其次,用户需要执行高级分析,比如机器学习和图像处理
在实际大数据应用中,经常需要融合关系查询和复杂分析算法(比如机器学习或图像处理),但是,缺少这样的系统
Spark SQL填补了这个鸿沟:
首先,可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系型操作
其次,可以支持大数据中的大量数据源和数据分析算法
Spark SQL可以融合:传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
SparkSQL的前身是Shark,给熟悉RDBMS但又不理解MapReduce的技术人员提供快速上手的工具。
Hive是早期唯一运行在Hadoop上的SQL-on-Hadoop工具。但是MapReduce计算过程中大量的中间磁盘落地过程消耗了大量的I/O,降低的运行效率,为了提高SQL-on-Hadoop的效率,大量的SQL-on-Hadoop工具开始产生,其中表现较为突出的是:
Drill
Impala
Shark
其中Shark是伯克利实验室Spark生态环境的组件之一,是基于Hive所开发的工具,它修改了下图所示的右下角的内存管理、物理计划、执行三个模块,并使之能运行在Spark引擎上。
Shark的出现,使得SQL-on-Hadoop的性能比Hive有了10-100倍的提高。
但是,随着Spark的发展,对于野心勃勃的Spark团队来说,Shark对于Hive的太多依赖(如采用Hive的语法解析器、查询优化器等等),制约了Spark的One Stack Rule Them All的既定方针,制约了Spark各个组件的相互集成,所以提出了SparkSQL项目。SparkSQL抛弃原有Shark的代码,汲取了Shark的一些优点,如内存列存储(In-Memory Columnar Storage)、Hive兼容性等,重新开发了SparkSQL代码;由于摆脱了对Hive的依赖性,SparkSQL无论在数据兼容、性能优化、组件扩展方面都得到了极大的方便:
数据兼容方面SparkSQL不但兼容Hive,还可以从RDD、parquet文件、JSON文件中获取数据,未来版本甚至支持获取RDBMS数据以及cassandra等NOSQL数据;
性能优化方面除了采取In-Memory Columnar Storage、byte-code generation等优化技术外、将会引进Cost Model对查询进行动态评估、获取最佳物理计划等等;
组件扩展方面无论是SQL的语法解析器、分析器还是优化器都可以重新定义,进行扩展。
2014年6月1日Shark项目和SparkSQL项目的主持人Reynold Xin宣布:停止对Shark的开发,团队将所有资源放SparkSQL项目上,至此,Shark的发展画上了句话,但也因此发展出两个支线:SparkSQL和Hive on Spark。
其中SparkSQL作为Spark生态的一员继续发展,而不再受限于Hive,只是兼容Hive;而Hive on Spark是一个Hive的发展计划,该计划将Spark作为Hive的底层引擎之一,也就是说,Hive将不再受限于一个引擎,可以采用Map-Reduce、Tez、Spark等引擎。
对于开发人员来讲,SparkSQL可以简化RDD的开发,提高开发效率,且执行效率非常快,所以实际工作中,基本上采用的就是SparkSQL。SparkSQL为了简化RDD的开发,提高开发效率,提供了2个编程抽象,类似SparkCore中的RDD:
DataFrame
DataSet
- 简述RDD 和DataFrame的联系与区别。
RDD 和DataFrame的联系
DataFrame被称为SchemaRDD。DataFrame使Spark具备了处理大规模结构化数据的能力。在Spark中,DataFrame是一种以RDD为基础的分布式数据集,因此DataFrame可以完成RDD的绝大多数功能,在开发使用时,也可以调用方法将RDD和DataFrame进行相互转换。
DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息,相当于关系数据库中的一张表
1、都是 spark 平台下的分布式弹性数据集,为处理超大型数据提供便利
2、都有惰性机制,在进行创建、转换,如 map 方法时,不会立即执行,只有在遇到 Action 如 foreach 时,才会开始遍历运算。
3、都会根据 spark 的内存情况自动缓存运算,这样即使数据量很大,也不用担心会内存溢出
4、都有 partition 的概念
5、有许多共同的函数,如 filter,排序等
区别
结构的区别
RDD 和 DataFrame 均为 Spark 平台对数据的一种抽象,一种组织方式,但是两者的地位或者说设计目的却截然不同。
RDD 是整个 Spark 平台的存储、计算以及任务调度的逻辑基础,更具有通用性,适用于各类数据源,
而 DataFrame 是只针对结构化数据源的高层数据抽象,其中在 DataFrame 对象的创建过程中必须指定数据集的结构信息( Schema ),
所以 DataFrame 生来便是具有专用性的数据抽象,只能读取具有鲜明结构的数据集
下图直观地体现了 DataFrame 和 RDD 的区别。
左侧的 RDD[Person] 虽然以 Person 类为类型参数,但 Spark 平台本身并不了解 Person 类的内部结构。
而右侧的 DataFrame 却提供了详细的结构信息,使得 Spark SQL 可以清楚地知道该数据集中包含哪些列,每列的名称和类型各是什么。
DataFrame 多了数据的结构信息,即 schema 。
RDD 是分布式的 Java 对象的集合, DataFrame 则是分布式的 Row 对象的集合。
DataFrame 除了提供了比 RDD 更丰富的算子操作以外,更重要的特点是利用已知的结构信息来提升执行效率、减少数据读取以及执行计划的优化,比如 filter 下推、裁剪等。
正是由于 RDD 并不像 DataFrame 提供详尽的结构信息,所以 RDD 提供的 API 功能上并没有像 DataFrame 强大丰富且自带优化,所以又称为 Low - levelAPI ,相比之下, DataFrame 被称为 high - level 的抽象,其提供的 API 类似于 SQL 这种特定领域的语言( DSL )来操作数据集。
使用场景的区别
RDD 是 Spark 的数据核心抽象, DataFrame 是 Spark 四大高级模块之一 Spark SQL 所处理数据的核心抽象,
所谓的数据抽象,就是当为了解决某一类数据分析问题时,根据问题所涉及的数据结构特点以及分析需求在逻辑上总结出的典型、普适该领域数据的一种抽象,一种泛型,一种可表示该领域待处理数据集的模型。
而 RDD 是作为 Spark 平台一种基本、通用的数据抽象,基于其不关注元素内容及结构的特点,我们对结构化数据、半结构化数据、非结构化数据一视同仁,都可转化为由同一类型元素组成的 RDD 。
但是作为一种通用、普适的工具,其必然无法高效、便捷地处理一些专门领域具有特定结构特点的数据,因此,这就是为什么, Spark 在推出基础、通用的 RDD 编程后,
还要在此基础上提供四大高级模块来针对特定领域、特定处理需求以及特定结构数据,
比如 SparkStreaming 负责处理流数据,进行实时计算(实时计算),
而 Spark SQL 负责处理结构化数据源,更倾向于大规模数据分析,
而 MLlib 可用于在 Spark 上进行机器学习。
因此,若需处理的数据是上述的典型结构化数据源或可通过简易处理可形成鲜明结构的数据源,且其业务需求可通过典型的 SQL 语句来实现分析逻辑,我们可以直接引入 Spark SQL 模块进行编程。
3.DataFrame的创建与保存
3.1 PySpark-DataFrame创建:
一个实例
在“/usr/local/spark/examples/src/main/resources/”这个目录下,有两个样例数据people.json和people.txt。
people.json文件的内容如下:
{"name":"Michael"}
{"name":"Andy", "age":30}
people.txt文件的内容如下:
Michael, 29
Andy, 30
Justin, 19
使用spark.read操作,从不同类型的文件中加载数据创建DataFrame
读取文本文件.txt创建DataFrame
读取.json文件创建DataFrame;
url1 = 'file:///usr/local/spark/examples/src/main/resources/people.txt'
df1 = spark.read.text(url1)
df1
df1.show()
url2 = 'file:///usr/local/spark/examples/src/main/resources/people.json'
df2 = spark.read.json(url2)
df2
df2.show()
或者也可以使用如下格式的语句:
df1 = spark.read.format("text").load(url1):读取文本文件people.json创建DataFrame;
df1.show()
df2 = spark.read.format("json").load(url2):读取JSON文件people.json创建DataFrame;
df2.show()
rdd = sc.textFile(url1)
rdd.collect()
df1 = spark.read.format("text").load(url1)
df1.show()
3.2 DataFrame的保存
df.write.text(dir)
df.write.json(dri)
df.write.format("text").save(dir)
df.write.format("json").save(dir)
4.选择题
4.1 单选(2分)关于Shark,下面描述正确的是:C
A. Shark提供了类似Pig的功能
B. Shark把SQL语句转换成MapReduce作业
C. Shark重用了Hive中的HiveQL解析、逻辑执行计划翻译、执行计划优化等逻辑
D. Shark的性能比Hive差很多
4.2 单选(2分)下面关于Spark SQL架构的描述错误的是:B
A. 在Shark原有的架构上重写了逻辑执行计划的优化部分,解决了Shark存在的问题
B. Spark SQL在Hive兼容层面仅依赖HiveQL解析和Hive元数据
C. Spark SQL执行计划生成和优化都由Catalyst(函数式关系查询优化框架)负责
D. Spark SQL执行计划生成和优化需要依赖Hive来完成
4.3 单选(2分)要把一个DataFrame保存到people.json文件中,下面语句哪个是正确的:A
A. df.write.json("people.json")
B. df.json("people.json")
C. df.write.format("csv").save("people.json")
D. df.write.csv("people.json")
4.4 多选(3分)Shark的设计导致了两个问题:AC
A. 执行计划优化完全依赖于Hive,不方便添加新的优化策略
B. 执行计划优化不依赖于Hive,方便添加新的优化策略
C. Spark是线程级并行,而MapReduce是进程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
D. Spark是进程级并行,而MapReduce是线程级并行,因此,Spark在兼容Hive的实现上存在线程安全问题,导致Shark不得不使用另外一套独立维护的、打了补丁的Hive源码分支
4.5 多选(3分)下面关于为什么推出Spark SQL的原因的描述正确的是:AB
A. Spark SQL可以提供DataFrame API,可以对内部和外部各种数据源执行各种关系操作
B. 可以支持大量的数据源和数据分析算法,组合使用Spark SQL和Spark MLlib,可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力
C. Spark SQL无法对各种不同的数据源进行整合
D. Spark SQL无法融合结构化数据管理能力和机器学习算法的数据处理能力
4.6 多选(3分)下面关于DataFrame的描述正确的是:ABCD
A. DataFrame的推出,让Spark具备了处理大规模结构化数据的能力
B. DataFrame比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能
C. Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询
D. DataFrame是一种以RDD为基础的分布式数据集,提供了详细的结构信息
4.7 多选(3分)要读取people.json文件生成DataFrame,可以使用下面哪些命令:AC
A. spark.read.json("people.json")
B. spark.read.parquet("people.json")
C. spark.read.format("json").load("people.json")
D. spark.read.format("csv").load("people.json")
- PySpark-DataFrame各种常用操作
基于df的操作:
打印数据 df.show()默认打印前20条数据
打印概要 df.printSchema()
查询总行数 df.count()
df.head(3) #list类型,list中每个元素是Row类
输出全部行 df.collect() #list类型,list中每个元素是Row类
查询概况 df.describe().show()
取列 df[‘name’], df.name, df[1]
选择 df.select() 每个人的年龄+1
筛选 df.filter() 20岁以上的人员信息
筛选年龄为空的人员信息
分组df.groupBy() 统计每个年龄的人数
排序df.sortBy() 按年龄进行排序
基于spark.sql的操作
创建临时表 df.registerTempTable('people')
spark.sql执行SQL语句 spark.sql('select name from people').show()
pyspark中DataFrame与pandas中DataFrame
分别从文件创建两种DataFrame
安装python3的pandas库
查看两种df的区别
pandas中DataFrame转换为Pyspark中DataFrame
Pyspark中DataFrame转换为pandas中DataFrame
6.从RDD转换得到DataFrame
6.1 利用反射机制推断RDD模式
创建RDD sc.textFile(url).map(),读文件,分割数据项
每个RDD元素转换成 Row
由Row-RDD转换到DataFrame
6.2 使用编程方式定义RDD模式
下面生成“表头”
下面生成“表中的记录”
下面把“表头”和“表中的记录”拼装在一起
- 选择题
7.1 单选(2分) 以下操作中,哪个不是DataFrame的常用操作:D
A.printSchema()
B.select()
C.filter()
D.sendto()
7.2 多选(3分) 从RDD转换得到DataFrame包含两种典型方法,分别是:AB
A.利用反射机制推断RDD模式
B.使用编程方式定义RDD模式
C.利用投影机制推断RDD模式
D.利用互联机制推断RDD模式
7.3 多选(3分) 使用编程方式定义RDD模式时,主要包括哪三个步骤:ABC
A.制作“表头”
B.制作“表中的记录”
C.制作映射表
D.把“表头”和“表中的记录”拼装在一起