2018 年 7月 30 日随笔档案 - 初见微凉i

2018年7月30日

SQL - for xml path('') 实现多行合并到一行, 并带有分隔符

摘要： docs.microsoft.com 链接： SQL 一个应用场景与FOR XML PATH应用首先呢！我们在增加一张学生表，列分别为（stuID,sName,hobby）,stuID代表学生编号，sName代表学生姓名，hobby列存学生的爱好！那么现在表结构如下：这时，我们的要求是查询学生表阅读全文

posted @ 2018-07-30 17:59 初见微凉i 阅读(1089) 评论(0) 推荐(0) 编辑

Spark Streaming笔记整理（三）：DS的transformation与output操作

摘要： DStream的各种transformation 可以看到很多都是在RDD中已经有的transformation算子操作，所以这里只关注transform、updateStateByKey和window函数 transformation之transform操作 DStream transform 1 阅读全文

posted @ 2018-07-30 15:47 初见微凉i 阅读(452) 评论(0) 推荐(0) 编辑

Spark Streaming笔记整理（二）：案例、SSC、数据源与自定义Receiver

摘要：实时WordCount案例主要是监听网络端口中的数据，并实时进行wc的计算。 Java版测试代码如下：启动程序，同时在主机上使用nc命令进行操作：输出结果如下：同时也可以在Spark UI上查看相应的作业执行情况：可以看到，每2秒就会执行一次计算，即每隔2秒采集一次数据，将数据打散成一个阅读全文

posted @ 2018-07-30 15:46 初见微凉i 阅读(2924) 评论(0) 推荐(0) 编辑

Spark Streaming笔记整理（一）：基本工作原理介绍

摘要：概述大数据实时计算介绍 1、Spark Streaming，其实就是一种Spark提供的，对于大数据，进行实时计算的一种框架。它的底层，其实，也是基于我们之前讲解的Spark Core的。基本的计算模型，还是基于内存的大数据实时计算模型。而且，它的底层的核心组件还是我们在Spark Core中经常阅读全文

posted @ 2018-07-30 15:45 初见微凉i 阅读(1550) 评论(0) 推荐(0) 编辑

Spark SQL笔记整理（三）：加载保存功能与Spark SQL函数

摘要：加载保存功能数据加载（json文件、jdbc）与保存（json、jdbc）测试代码如下：当执行读操作时，输出结果如下：当执行写操作时： Spark SQL和Hive的集成需要先启动Hive，然后再进行下面的操作。代码编写测试代码如下：打包、上传与配置打包后上传到集群环境中，然后针对阅读全文

posted @ 2018-07-30 15:44 初见微凉i 阅读(1310) 评论(0) 推荐(0) 编辑

Spark SQL笔记整理（二）：DataFrame编程模型与操作案例

摘要： DataFrame原理与解析 Spark SQL和DataFrame 1、Spark SQL是Spark中的一个模块，主要用于进行结构化数据的处理。它提供的最核心的编程抽象，就是DataFrame。同时Spark SQL还可以作为分布式的SQL查询引擎。Spark SQL最重要的功能之一，就是从Hi 阅读全文

posted @ 2018-07-30 15:43 初见微凉i 阅读(353) 评论(0) 推荐(0) 编辑

Spark SQL笔记整理（一）：Spark SQL整体背景介绍

摘要：基本概述 1、Spark 1.0版本以后，Spark官方推出了Spark SQL。其实最早使用的，都是Hadoop自己的Hive查询引擎；比如MR2，我们底层都是运行的MR2模型，底层都是基于Hive的查询引擎。 2、后来Spark提供了Shark；再后来Shark被淘汰（Shark制约了Spark 阅读全文

posted @ 2018-07-30 15:42 初见微凉i 阅读(251) 评论(0) 推荐(0) 编辑

Spark笔记整理（六）：Spark高级排序与TopN问题揭密

摘要：引入前面进行过wordcount的单词统计例子，关键是，如何对统计的单词按照单词个数来进行排序？如下：下面的测试都需要引入maven的依赖 Spark二次排序测试数据与说明需要进行二次排序的数据格式如下：思路下面的代码注释会有详细的说明，这里要指出的是，在下面的排序过程中，分别使用Jav 阅读全文

posted @ 2018-07-30 15:41 初见微凉i 阅读(384) 评论(0) 推荐(0) 编辑

Spark笔记整理（五）：Spark RDD持久化、广播变量和累加器

摘要： Spark RDD持久化 RDD持久化工作原理 Spark非常重要的一个功能特性就是可以将RDD持久化在内存中。当对RDD执行持久化操作时，每个节点都会将自己操作的RDD的partition持久化到内存中，并且在之后对该RDD的反复使用中，直接使用内存缓存的partition。这样的话，对于针对一个阅读全文

posted @ 2018-07-30 15:40 初见微凉i 阅读(1114) 评论(0) 推荐(0) 编辑

Spark笔记整理（四）：Spark RDD算子实战

摘要： Spark算子概述 RDD：弹性分布式数据集，是一种特殊集合、支持多种来源、有容错机制、可以被缓存、支持并行操作，一个RDD代表多个分区里的数据集。 RDD有两种操作算子： Transformation（转换）：Transformation属于延迟计算，当一个RDD转换成另一个RDD时并没有立即进行阅读全文

posted @ 2018-07-30 15:39 初见微凉i 阅读(288) 评论(0) 推荐(0) 编辑

Spark笔记整理（三）：Spark WC开发与应用部署

摘要： Spark WordCount开发创建的是maven工程，使用的依赖如下： spark wc之Java版本本地执行，输出结果如下： spark wc之Java lambda版本本地执行，输出结果如下： spark wc之scala版本本地执行，输出结果如下：应用部署部署说明上面的方式其阅读全文

posted @ 2018-07-30 15:38 初见微凉i 阅读(791) 评论(0) 推荐(0) 编辑

Spark笔记整理(二)：RDD与spark核心概念

摘要： Spark RDD 非常基本的说明，下面一张图就能够有基本的理解： Spark RDD基本说明 1、Spark的核心概念是RDD (resilient distributed dataset，弹性分布式数据集)，指的是一个只读的，可分区的分布式数据集，这个数据集的全部或部分可以缓存在内存中，在多次计阅读全文

posted @ 2018-07-30 15:37 初见微凉i 阅读(258) 评论(0) 推荐(0) 编辑

Spark笔记整理(一)：Spark单机安装部署、分布式集群与HA安装部署+spark源码编译

摘要： spark单机安装部署完全分布式安装基于zookeeper的HA配置 Spark源码编译编译成功后输出如下：然后就可以在下面的目录中看到编译成功的文件：在已经安装的spark的lib目录下也可以看到该文件：阅读全文

posted @ 2018-07-30 15:32 初见微凉i 阅读(287) 评论(0) 推荐(0) 编辑

初见微凉i

公告