摘要: ThriftServer是一个JDBC/ODBC接口,用户可以通过JDBC/ODBC连接ThriftServer来访问SparkSQL的数据。ThriftServer在启动的时候,会启动了一个SparkSQL的应用程序,而通过JDBC/ODBC连接进来的客户端共同分享这个SparkSQL应用程序的资 阅读全文
posted @ 2017-04-27 17:36 天之涯0204 阅读(2587) 评论(0) 推荐(0) 编辑
摘要: Spark SQL CLI Spark1.1增加了Spark SQL CLI和ThriftServer SparkSQL CLI配置 1、创建并配置hive-site.xml 在运行Spark SQL CLI中需要使用到Hive Metastore,故需要在Spark中添加其uris。具体方法是在S 阅读全文
posted @ 2017-04-27 17:12 天之涯0204 阅读(204) 评论(0) 推荐(0) 编辑
摘要: DSL风格语法 1、查看DataFrame中的内容 2、查看DataFrame部分列的数据 3、查看DataFrame schema信息 4、查询name和age并将age + 1 5、过滤年龄大于20的人 6、按年龄分组,并统计年龄相同的人数 SQL风格 在使用SQL风格前,首先需要将DataFr 阅读全文
posted @ 2017-04-27 14:45 天之涯0204 阅读(377) 评论(0) 推荐(0) 编辑
摘要: SQLContext是创建DataFrame和执行SQL语句的入口 通过RDD结合case class转换为DataFrame 1、准备:hdfs上提交一个文件,schema为id name age,内容如下 2、打开spark-shell命令行,执行如下 阅读全文
posted @ 2017-04-27 11:28 天之涯0204 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 什么是spark SQL spark SQL是spark处理结构化数据的一个模块,它提供了一个编程抽象叫做DataFrame,并作为分布式SQL查询引擎来使用。 spark SQL和 hive SQL hive SQL转换成MapReduce然后提交到集群上执行,大大简化了编写MapReduce的复 阅读全文
posted @ 2017-04-27 10:24 天之涯0204 阅读(154) 评论(0) 推荐(0) 编辑