随笔分类 - Spark SQL概念学习系列

1）Shark 的下一代技术是Spark SQL 2）Shark 的进化版本是Spark SQL 2) 支持结构化数据SQL查询的查询引擎Spark SQL 3) 提供在大数据上的SQL查询功能

摘要：不多说，直接上干货！性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache()，将表用一种柱状格式（ an inmemory columnar format）缓阅读全文

posted @ 2017-06-05 14:48 大数据和AI躺过的坑阅读(715) 评论(0) 推荐(0) 编辑

Spark SQL概念学习系列之用户自定义函数

摘要：不多说，直接上干货！用户自定义函数注册udf 我们可以使用Spark 支持的编程语言编写好函数，然后通过Spark SQL 内建的方法传递进来，非常便捷地注册我们自己的UDF 在Scala 和Python 中，可以利用语言原生的函数和lambda 语法的支持，而在Java 中，则需要扩展对应的U 阅读全文

posted @ 2017-06-05 14:46 大数据和AI躺过的坑阅读(1175) 评论(0) 推荐(0) 编辑

Spark SQL概念学习系列之分布式SQL引擎

摘要：不多说，直接上干货！ parkSQL作为分布式查询引擎：两种方式除了在Spark程序里使用Spark SQL，我们也可以把Spark SQL当作一个分布式查询引擎来使用，有以下两种使用方式： 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎：Thrift J 阅读全文

posted @ 2017-06-05 14:45 大数据和AI躺过的坑阅读(1199) 评论(0) 推荐(0) 编辑

SparkSQL 与 Spark Core的关系

摘要：不多说，直接上干货！ SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上，专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进，简单来讲： Spark SQL 支持很多种结构阅读全文

posted @ 2017-06-05 08:51 大数据和AI躺过的坑阅读(1140) 评论(0) 推荐(0) 编辑

Spark SQL概念学习系列之DataFrame与RDD的区别

摘要：不多说，直接上干货！ DataFrame的推出，让Spark具备了处理大规模结构化数据的能力，不仅比原有的RDD转化方式更加简单易用，而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化，并且支持SQL查询。图 DataFrame与RDD的区别从上面的图中可以看阅读全文

posted @ 2017-04-10 22:06 大数据和AI躺过的坑阅读(3629) 评论(0) 推荐(0) 编辑

Spark SQL概念学习系列之Spark SQL基本原理

摘要：Spark SQL基本原理 1、Spark SQL模块划分 2、Spark SQL架构--catalyst设计图 3、Spark SQL运行架构 4、Hive兼容性 1、Spark SQL模块划分 Spark SQL模块划分为Core、caralyst、hive和hive- ThriftServer 阅读全文

posted @ 2017-04-10 21:59 大数据和AI躺过的坑阅读(9159) 评论(0) 推荐(1) 编辑

Spark SQL概念学习系列之Spark SQL概述

摘要：很多人一个误区，Spark SQL重点不是在SQL啊，而是在结构化数据处理！ Spark SQL结构化数据处理概要： 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark SQL编程 04 分布式SQL引擎 05 用户自定义函数 06 性能调优 Spark SQL概述阅读全文

posted @ 2017-04-09 10:53 大数据和AI躺过的坑阅读(1097) 评论(0) 推荐(0) 编辑

Spark SQL入门案例之人力资源系统数据处理

摘要：通过该案例，给出一个比较完整的、复杂的数据处理案例，同时给出案例的详细解析。人力资源系统的管理内容组织结构图 1）人力资源系统的数据库与表的构建。 2）人力资源系统的数据的加载。 3）人力资源系统的数据的查询。职工基本信息职工姓名,职工id,职工性别,职工年龄,入职年份,职位,所在部门i 阅读全文

posted @ 2016-12-04 10:10 大数据和AI躺过的坑阅读(1118) 评论(0) 推荐(0) 编辑

转】 Spark SQL UDF使用

摘要：原博文出自于： http://blog.csdn.net/oopsoom/article/details/39401391 感谢！ Spark1.1推出了Uer Define Function功能，用户可以在Spark SQL 里自定义实际需要的UDF来处理数据。因为目前Spark SQL本身支持阅读全文

posted @ 2016-11-09 16:10 大数据和AI躺过的坑阅读(6998) 评论(0) 推荐(0) 编辑

【转】HIVE UDF UDAF UDTF 区别使用

摘要：原博文出自于：http://blog.csdn.net/longzilong216/article/details/23921235（暂时）感谢！自己写代码时候的利用到的模板 UDF步骤： 1.必须继承org.apache.hadoop.hive.ql.exec.UDF 2.必须实现evalua 阅读全文

posted @ 2016-11-09 12:19 大数据和AI躺过的坑阅读(3611) 评论(0) 推荐(1) 编辑

【转】hive中UDF、UDAF和UDTF使用

摘要：原博文出自于： http://blog.csdn.net/liuj2511981/article/details/8523084 感谢！ Hive进行UDF开发十分简单，此处所说UDF为Temporary的function，所以需要hive版本在0.4.0以上才可以。一、背景： Hive是基于Had 阅读全文

posted @ 2016-11-09 12:15 大数据和AI躺过的坑阅读(1036) 评论(0) 推荐(0) 编辑

Spark SQL概念学习系列之Spark SQL入门（八）

摘要：前言第1章为什么Spark SQL？第2章 Spark SQL运行架构第3章 Spark SQL组件之解析第4章深入了解Spark SQL运行计划第5章测试环境之搭建第6章 Spark SQL之基础应用第7章 ThriftServer和CLI 第8章 Spark SQL之综合应用阅读全文

posted @ 2016-11-09 10:39 大数据和AI躺过的坑阅读(927) 评论(0) 推荐(0) 编辑

转】Spark SQL 之 DataFrame

摘要：原博文出自于： http://www.cnblogs.com/BYRans/p/5003029.html 感谢！ Spark SQL 之 DataFrame 转载请注明出处：http://www.cnblogs.com/BYRans/ 概述（Overview） Spark SQL是Spark的一个组阅读全文

posted @ 2016-11-07 22:56 大数据和AI躺过的坑阅读(1649) 评论(0) 推荐(0) 编辑

转】RDD与DataFrame的转换

摘要：原博文出自于： http://www.cnblogs.com/namhwik/p/5967910.html RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的，例如Person，而Person有name,id等，而record是不知阅读全文

posted @ 2016-11-07 20:18 大数据和AI躺过的坑阅读(6173) 评论(0) 推荐(0) 编辑

转】SparkSQL中的内置函数

摘要：原博文来自于： http://blog.csdn.net/u012297062/article/details/52207934 感谢！使用Spark SQL中的内置函数对数据进行分析，Spark SQL API不同的是，DataFrame中的内置函数操作的结果是返回一个Column对象，而Dat 阅读全文

posted @ 2016-11-07 20:00 大数据和AI躺过的坑阅读(2200) 评论(0) 推荐(0) 编辑

60分钟内从零起步驾驭Hive实战学习笔记（Ubuntu里安装mysql）

摘要：本博文的主要内容是： 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark，Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具，后来开发了Shark，Shark依赖于Hive的解释引擎，部分在Spark中运行阅读全文

posted @ 2016-10-09 17:47 大数据和AI躺过的坑阅读(1143) 评论(0) 推荐(0) 编辑

公告

欢迎您来到《大数据和人工智能躺过的坑》的3D彩色云标签，让您多份关注与留念。微信公众号平台1：大数据躺过的坑微信公众号平台2：今日热点在线微信公众号平台3 ：九哥九嫂小日子大数据和人工智能躺过的坑（总群）： 161156071 更多QQ技术分群，详情请见：http://www.cnblogs.com/zlslch/p/7473861.html

昵称：大数据和AI躺过的坑
园龄： 9年3个月
粉丝： 1315
关注： 39

+加关注

2025年3月

日

一

二

三

四

五

六

大数据和人工智能躺过的坑

随笔分类 - Spark SQL概念学习系列

公告

搜索

常用链接

积分与排名

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论