厚道善良守信宽容诚实谦虚正直执着

2.4 PySpark SQL-DataFrame文件处理

【实验目的】

1.掌握PySpark SQL的基本操作

2.了解PySpark SQL对文件的存储

【实验原理】

Spark SQL重要的是操作DataFrame，DataFrame本身提供了Save和Load的操作，

Load：可以创建DataFrame。

Save：把DataFrame中的数据保存到文件或者说用具体的格式来指明我们要读取的文件类型，以及用具体的格式来指出我们要输出的文件是什么类型。

Spark SQL执行基本操作时，内部结构流程图如下：

DataFrame本质是数据 + 数据的描述信息（结构元信息）。

所有的上述SQL及DataFrame操作最终都通过Catalyst翻译成Spark程序RDD操作代码。

Spark SQL前身是Shark，大量依赖Hive项目的jar包与功能，但在上面的扩展越来越难，因此出现了Spark SQL，它重写了分析器，执行器脱离了对Hive项目的大部分依赖，基本可以独立去运行，只用到Hive项目的两个地方：

（1）借用了Hive词汇分析的jar即HiveQL解析器

（2）借用了Hive的metastore和数据访问API即Hive Catalog

也就是说上图的左半部分的操作，全部用的是SparkSQL本身自带的内置SQL解析器解析SQL进行翻译，用到内置元数据信息(比如结构化文件中自带的结构元信息，RDD的schema中的结构元信息)右半部分则是走的Hive的HQL解析器，还有Hive元数据信息。因此左右两边的API调用的底层类会有不同。

SQLContext使用：

1.简单的解析器（Scala语言写的SQL解析器）比如：

（1）在半结构化的文件里面使用SQL查询时，是用这个解析器解析的。

（2）访问（半）结构化文件的时候，通过sqlContext使用schema，类生成DataFrame，然后DataFrame注册为表时，registerTempTable（注册临时表）然后从这个表里面进行查询时，即使用的简单的解析器。

simpleCatalog此对象中存放关系（表），比如我们指定的schema信息，类的信息，都是关系信息。

2.HiveContext使用：

（1）HiveQL解析器支持Hive的HQL语法，如只有通过HiveContext生成的DataFrame才能调用saveAsTable操作。

（2）hiveCatalog（存放数据库和表的元数据信息）

【实验环境】

Anolis OS 8.8

Java 1.8.0

Hadoop-3.0.0

scala-2.12.8

spark-2.4.3

PySpark

【实验内容】

将Linux本地的goods_visit.json文件上传到HDFS上/input/pyspark2目录下，使用Spark读取HDFS上/input/pyspark2目录下的goods_visit.json文件，然后用SparkSQL对goods_visit.json文件进行各种操作，最后将Spark上的goods_visit.json文件保存为parquet格式存储到HDFS上。