摘要:
基本概述 1、Spark 1.0版本以后,Spark官方推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;比如MR2,我们底层都是运行的MR2模型,底层都是基于Hive的查询引擎。 2、后来Spark提供了Shark;再后来Shark被淘汰(Shark制约了Spark 阅读全文
摘要:
引入 前面进行过wordcount的单词统计例子,关键是,如何对统计的单词按照单词个数来进行排序? 如下: 下面的测试都需要引入maven的依赖 Spark二次排序 测试数据与说明 需要进行二次排序的数据格式如下: 思路下面的代码注释会有详细的说明,这里要指出的是,在下面的排序过程中,分别使用Jav 阅读全文
摘要:
Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个 阅读全文
摘要:
Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 阅读全文
摘要:
Spark WordCount开发 创建的是maven工程,使用的依赖如下: spark wc之Java版本 本地执行,输出结果如下: spark wc之Java lambda版本 本地执行,输出结果如下: spark wc之scala版本 本地执行,输出结果如下: 应用部署 部署说明 上面的方式其 阅读全文
摘要:
Spark RDD 非常基本的说明,下面一张图就能够有基本的理解: Spark RDD基本说明 1、Spark的核心概念是RDD (resilient distributed dataset,弹性分布式数据集),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计 阅读全文
摘要:
spark单机安装部署 完全分布式安装 基于zookeeper的HA配置 Spark源码编译 编译成功后输出如下: 然后就可以在下面的目录中看到编译成功的文件: 在已经安装的spark的lib目录下也可以看到该文件: 阅读全文