spark入门系列教程三——spark sql(一）

2018-12-06 18:42 RingWu 阅读(3274) 评论(0) 编辑收藏举报

Spark SQL是用于结构化数据处理的Spark模块，可以通过sql、dataset、dataframe与spark sql进行交互。更多理论性知识请移步官网http://spark.apache.org/docs/2.3.1/sql-programming-guide.html

在spark 2.0以前，多使用SqlContext进行开发，2.0以后，推荐使用SparkSession，本文将以SqlContext写一个简单的例子，在后面的博文中，会写spark session相关的博文，并会详细说明二者之间的差别。

接着上一篇的工程，继续开发学习。

1.准备

1.1添加maven依赖

在pom文件中添加如下依赖：

1.2准备数据

新建一个txt文件，加入以下数据

如果有hdfs集群，可以将数据push到hdfs集群

新建scala object SparkSqlDemo1，加入如下代码：

运行结果：

感谢阅读！

刷新页面返回顶部