摘要: 学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如Getting Started - Spark 3.2.0 Documentation (apache.org),另一种是去看官网的例子,也就是%SPARK_HOME%\examples下面的代码。打开IDEA,选择File-Open... 阅读全文
posted @ 2021-12-03 19:02 大卫小东(Sheldon) 阅读(709) 评论(0) 推荐(0) 编辑
摘要: SparkSession 从Spark2开始,Spark-SQL引入了SparkSession这个核心类,它是处理DataSet等结构数据的入口。在2.0之前,使用的是spark-core里的SparkContext。从前面的例子里也可以看到,程序一上来就要先创建SparkSession对象: Sp 阅读全文
posted @ 2021-12-03 12:29 大卫小东(Sheldon) 阅读(287) 评论(0) 推荐(0) 编辑
摘要: spark-sql是用来处理结构化数据的模块,是入门spark的首要模块。 技术的学习无非就是去了解它的API,但是Spark有点难,因为它的例子和网上能搜到的基本都是Scala写的。我们这里使用Java。 入门例子 数据处理的第一个例子通常都是word count,就是统计一个文件里每个单词出现了 阅读全文
posted @ 2021-12-03 11:29 大卫小东(Sheldon) 阅读(652) 评论(0) 推荐(0) 编辑
摘要: Spark 是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存。 Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Java api的能力和原生api并不完全相同,据说执行效率也有微 阅读全文
posted @ 2021-12-03 11:08 大卫小东(Sheldon) 阅读(2404) 评论(0) 推荐(0) 编辑