摘要:
学习一门开源技术一般有两种入门方法,一种是去看官网文档,比如Getting Started - Spark 3.2.0 Documentation (apache.org),另一种是去看官网的例子,也就是%SPARK_HOME%\examples下面的代码。打开IDEA,选择File-Open... 阅读全文
摘要:
SparkSession 从Spark2开始,Spark-SQL引入了SparkSession这个核心类,它是处理DataSet等结构数据的入口。在2.0之前,使用的是spark-core里的SparkContext。从前面的例子里也可以看到,程序一上来就要先创建SparkSession对象: Sp 阅读全文
摘要:
spark-sql是用来处理结构化数据的模块,是入门spark的首要模块。 技术的学习无非就是去了解它的API,但是Spark有点难,因为它的例子和网上能搜到的基本都是Scala写的。我们这里使用Java。 入门例子 数据处理的第一个例子通常都是word count,就是统计一个文件里每个单词出现了 阅读全文
摘要:
Spark 是离线数据处理的一种大数据技术,和Flick相比数据处理要延后,因为Flick是实时数据处理,而Spark需要先读取数据到内存。 Spark的库是基于Scala写的,虽然Scala也是运行在jvm上的,但是Spark提供的Java api的能力和原生api并不完全相同,据说执行效率也有微 阅读全文