spark SQL

参考文献：https://www.ibm.com/developerworks/cn/opensource/os-cn-spark-practice3/index.html

大数据工程师们开始探索如何使用类 SQL 的方式来操作和分析大数据，通过大量的努力，目前业界已经出现很多 SQL on Hadoop 的方案，如 Hive, Impala 等。Spark SQL 就是其中的一个，实际上 Spark SQL 并不是一开始就存在于 Spark 生态系统里的，它的前身是 Shark

Spark SQL 是 Spark 生态系统里用于处理结构化大数据的模块
Spark DataFrame 以 RDD 为基础，但是带有 Schema 信息，它类似于传统数据库中的二维表格
一旦将 DataFrame 注册成临时表，我们就可以使用类 SQL 的方式操作这些数据
当前支持的数据源有：Json、文本文件、RDD、关系数据库、Hive、Parquet