第六、七次作业

第六次

集合运算练习

内连接与外连接

网盘下载sc.txt文件，通过RDD操作实现以下数据分析:

持久化

总共有多少学生？

开设了多少门课程？

每个学生选修了多少门课？

每门课程有多少个学生选？

有多少个100分？

Tom选修了几门课？每门课多少分？

第七次

1.请分析SparkSQL出现的原因，并简述SparkSQL的起源与发展。

（1）SparkSQL出现的原因

　　　　hive是shark的前身，shark是sparkSQL的前身，sparkSQL产生的根本原因是其完全脱离了hive的限制，hive是hive SQL转换成MapReduce然后提交到集群上执行，大大简化了编写MapReduce的程序复杂性。同时也由于MapReduce的计算执行效率很慢，因此spark SQL就这样出来，就是将spark SQL转换成RDD，然后提交到集群上执行，这样效率就非常快。

（2）SparkSQL的起源

　　在三四年前，Hive可以说是SQL on Hadoop的唯一选择，负责将SQL编译成可扩展的MapReduce作业。鉴于Hive的性能以及与Spark的兼容，Shark项目由此而生。

　　Shark即Hive on Spark，本质上是通过Hive的HQL解析，把HQL翻译成Spark上的RDD操作，然后通过Hive的metadata获取数据库里的表信息，实际HDFS上的数据和文件，会由Shark获取并放到Spark上运算。

　　Shark的最大特性就是快和与Hive的完全兼容，且可以在shell模式下使用rdd2sql()这样的API，把HQL得到的结果集，继续在scala环境下运算，支持自己编写简单的机器学习或简单分析处理函数，对HQL结果进一步分析计算。

（3）SparkSQL的发展

　　在2014年7月1日的Spark Summit上，Databricks宣布终止对Shark的开发，将重点放到Spark SQL上。

　　Databricks表示，Spark SQL将涵盖Shark的所有特性，用户可以从Shark 0.9进行无缝的升级。

　　Databricks推广的Shark相关项目一共有两个，分别是Spark SQL和新的Hive on Spark（HIVE-7292）

　　Databricks表示，Shark更多是对Hive的改造，替换了Hive的物理执行引擎，因此会有一个很快的速度。然而，不容忽视的是，Shark继承了大量的Hive代码，因此给优化和维护带来了大量的麻烦。

2. 简述RDD 和DataFrame的联系与区别？

RDD可看作是分布式的对象的集合，Spark并不知道对象的详细模式信息，DataFrame可看作是分布式的Row对象的集合，其提供了由列组成的详细模式信息（就是列的名称和类型），使得Spark SQL可以进行某些形式的执行优化。

3.DataFrame的创建