7. Spark SQL

1.分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

1.1.SparkSQL出现的原因

　　hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成　　 MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序复杂性。同时也由于MapReduce的计算执行效率很慢，因此 spark SQL就这样出来，就是将spark SQL转换成RDD，然后提交到集群上执行，这样效率就非常快。

1.2.SparkSQL的起源与发展

　　要说这个的起源，我们要先供hive讲起。hive并不是另一个SQL,它只是SQL-on-Hadoop,执行的是在Hadoop上实现用类SQL的语法对 SQL 的快速查询。而在Spark 开始兴起之后，就开始转向在Spark上使用Hive，于是开发出了Shark==Hive on Spark.

　　Shark即Hive on Spark，为了实现与Hive兼容，Spark在HiveQL方面重用了Hive中Hive的解析，逻辑执行计划翻译，执行计划优化等逻辑，可以近似认为仅将物理执行计划从MapReduce作业替换成了Spark作业，通过Hive的HiveQL解析，把HiveQL翻译成Spark上的RDD操作。

　　但是，Shark的设计导致了两个问题：一是执行计划优化完全依赖于Hive，不方便添加新的优化策略；二是因为Sparl是线程级并行，而MapReduce是进程级并行，因此,Spark在兼容Hive的是现实上存在线程安全问题，导致Shark不得不使用另外一套独立维护的打了补丁的Hive源码分支。进而开发了SparkSQL。

　　SparkSQL是一个全新且兼容Hive的。在当时关系数据库已经很流行，但是关系数据库在大数据时代已经不能满足要求。首先，用户需要从不同的数据源执行各种操作，包括结构化和非结构化数据。其次，用户需要执行高级分析，例如像机器学习和图像处理等。而SparkSQL填补了这个鸿沟。SparkSQL首先可以提供DataFrame API，可以对内部和外部各种数据源执行各种关系操作。其次，可以支持大量的数据源和数据分析算法，SparkSQL可以融合传统关系数据库的结构化数据管理能力和机器学习算法的数据处理能力。

　　其中 SparkSQL 作为 Spark 生态的一员继续发展，而不再受限于 Hive，只是兼容 Hive；而Hive on Spark 是一个 Hive 的发展计划，该计划将 Spark 作为 Hive 的底层引擎之一，也就是说，Hive 将不再受限于一个引擎，可以采用 Map-Reduce、Tez、Spark 等引擎。

2. 简述RDD 和DataFrame的联系与区别。

2.1联系

1.RDD、DataFrame全都是spark平台下的分布式弹性数据集，为处理超大型数据提供便利
2.二者都有惰性机制，在进行创建、转换，如map方法时，不会立即执行，只有在遇到Action算子如foreach时，二者才会开始遍历运算，极端情况下，如果代码里面有创建、转换，但是后面没有在Action中使用对应的结果，在执行时会被直接跳过，
3、二者都会根据spark的内存情况自动缓存运算，这样即使数据量很大，也不用担心会内存溢出
4、二者有许多共同的函数，如filter，排序等