摘要: docs.microsoft.com 链接: SQL 一个应用场景与FOR XML PATH应用 首先呢!我们在增加一张学生表,列分别为(stuID,sName,hobby),stuID代表学生编号,sName代表学生姓名,hobby列存学生的爱好!那么现在表结构如下: 这时,我们的要求是查询学生表 阅读全文
posted @ 2018-07-30 17:59 初见微凉i 阅读(1089) 评论(0) 推荐(0) 编辑
摘要: DStream的各种transformation 可以看到很多都是在RDD中已经有的transformation算子操作,所以这里只关注transform、updateStateByKey和window函数 transformation之transform操作 DStream transform 1 阅读全文
posted @ 2018-07-30 15:47 初见微凉i 阅读(452) 评论(0) 推荐(0) 编辑
摘要: 实时WordCount案例 主要是监听网络端口中的数据,并实时进行wc的计算。 Java版 测试代码如下: 启动程序,同时在主机上使用nc命令进行操作: 输出结果如下: 同时也可以在Spark UI上查看相应的作业执行情况: 可以看到,每2秒就会执行一次计算,即每隔2秒采集一次数据,将数据打散成一个 阅读全文
posted @ 2018-07-30 15:46 初见微凉i 阅读(2924) 评论(0) 推荐(0) 编辑
摘要: 概述 大数据实时计算介绍 1、Spark Streaming,其实就是一种Spark提供的,对于大数据,进行实时计算的一种框架。它的底层,其实,也是基于我们之前讲解的Spark Core的。基本的计算模型,还是基于内存的大数据实时计算模型。而且,它的底层的核心组件还是我们在Spark Core中经常 阅读全文
posted @ 2018-07-30 15:45 初见微凉i 阅读(1550) 评论(0) 推荐(0) 编辑
摘要: 加载保存功能 数据加载(json文件、jdbc)与保存(json、jdbc) 测试代码如下: 当执行读操作时,输出结果如下: 当执行写操作时: Spark SQL和Hive的集成 需要先启动Hive,然后再进行下面的操作。 代码编写 测试代码如下: 打包、上传与配置 打包后上传到集群环境中,然后针对 阅读全文
posted @ 2018-07-30 15:44 初见微凉i 阅读(1310) 评论(0) 推荐(0) 编辑
摘要: DataFrame原理与解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一个模块,主要用于进行结构化数据的处理。它提供的最核心的编程抽象,就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。Spark SQL最重要的功能之一,就是从Hi 阅读全文
posted @ 2018-07-30 15:43 初见微凉i 阅读(353) 评论(0) 推荐(0) 编辑
摘要: 基本概述 1、Spark 1.0版本以后,Spark官方推出了Spark SQL。其实最早使用的,都是Hadoop自己的Hive查询引擎;比如MR2,我们底层都是运行的MR2模型,底层都是基于Hive的查询引擎。 2、后来Spark提供了Shark;再后来Shark被淘汰(Shark制约了Spark 阅读全文
posted @ 2018-07-30 15:42 初见微凉i 阅读(251) 评论(0) 推荐(0) 编辑
摘要: 引入 前面进行过wordcount的单词统计例子,关键是,如何对统计的单词按照单词个数来进行排序? 如下: 下面的测试都需要引入maven的依赖 Spark二次排序 测试数据与说明 需要进行二次排序的数据格式如下: 思路下面的代码注释会有详细的说明,这里要指出的是,在下面的排序过程中,分别使用Jav 阅读全文
posted @ 2018-07-30 15:41 初见微凉i 阅读(384) 评论(0) 推荐(0) 编辑
摘要: Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时,每个节点都会将自己操作的RDD的partition持久化到内存中,并且在之后对该RDD的反复使用中,直接使用内存缓存的partition。这样的话,对于针对一个 阅读全文
posted @ 2018-07-30 15:40 初见微凉i 阅读(1114) 评论(0) 推荐(0) 编辑
摘要: Spark算子概述 RDD:弹性分布式数据集,是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作,一个RDD代表多个分区里的数据集。 RDD有两种操作算子: Transformation(转换):Transformation属于延迟计算,当一个RDD转换成另一个RDD时并没有立即进行 阅读全文
posted @ 2018-07-30 15:39 初见微凉i 阅读(288) 评论(0) 推荐(0) 编辑
摘要: Spark WordCount开发 创建的是maven工程,使用的依赖如下: spark wc之Java版本 本地执行,输出结果如下: spark wc之Java lambda版本 本地执行,输出结果如下: spark wc之scala版本 本地执行,输出结果如下: 应用部署 部署说明 上面的方式其 阅读全文
posted @ 2018-07-30 15:38 初见微凉i 阅读(791) 评论(0) 推荐(0) 编辑
摘要: Spark RDD 非常基本的说明,下面一张图就能够有基本的理解: Spark RDD基本说明 1、Spark的核心概念是RDD (resilient distributed dataset,弹性分布式数据集),指的是一个只读的,可分区的分布式数据集,这个数据集的全部或部分可以缓存在内存中,在多次计 阅读全文
posted @ 2018-07-30 15:37 初见微凉i 阅读(258) 评论(0) 推荐(0) 编辑
摘要: spark单机安装部署 完全分布式安装 基于zookeeper的HA配置 Spark源码编译 编译成功后输出如下: 然后就可以在下面的目录中看到编译成功的文件: 在已经安装的spark的lib目录下也可以看到该文件: 阅读全文
posted @ 2018-07-30 15:32 初见微凉i 阅读(287) 评论(0) 推荐(0) 编辑