打赏

随笔分类 -  Spark SQL概念学习系列

1)Shark 的下一代技术是Spark SQL 2)Shark 的进化版本是Spark SQL 2) 支持结构化数据SQL查询的查询引擎Spark SQL 3) 提供在大数据上的SQL查询功能
摘要:不多说,直接上干货! 性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache(),将表用一种柱状格式( an in­memory columnar format)缓 阅读全文
posted @ 2017-06-05 14:48 大数据和AI躺过的坑 阅读(715) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! 用户自定义函数 注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Python 中,可以利用语言原生的函数和lambda 语法的支持,而在Java 中,则需要扩展对应的U 阅读全文
posted @ 2017-06-05 14:46 大数据和AI躺过的坑 阅读(1175) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! parkSQL作为分布式查询引擎:两种方式 除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式: 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎:Thrift J 阅读全文
posted @ 2017-06-05 14:45 大数据和AI躺过的坑 阅读(1199) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构 阅读全文
posted @ 2017-06-05 08:51 大数据和AI躺过的坑 阅读(1140) 评论(0) 推荐(0) 编辑
摘要:不多说,直接上干货! DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 图 DataFrame与RDD的区别 从上面的图中可以看 阅读全文
posted @ 2017-04-10 22:06 大数据和AI躺过的坑 阅读(3629) 评论(0) 推荐(0) 编辑
摘要:Spark SQL基本原理 1、Spark SQL模块划分 2、Spark SQL架构--catalyst设计图 3、Spark SQL运行架构 4、Hive兼容性 1、Spark SQL模块划分 Spark SQL模块划分为Core、caralyst、hive和hive- ThriftServer 阅读全文
posted @ 2017-04-10 21:59 大数据和AI躺过的坑 阅读(9159) 评论(0) 推荐(1) 编辑
摘要:很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理 概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark SQL编程 04 分布式SQL引擎 05 用户自定义函数 06 性能调优 Spark SQL概述 阅读全文
posted @ 2017-04-09 10:53 大数据和AI躺过的坑 阅读(1097) 评论(0) 推荐(0) 编辑
摘要:通过该案例,给出一个比较完整的、复杂的数据处理案例,同时给出案例的详细解析。 人力资源系统的管理内容组织结构图 1) 人力资源系统的数据库与表的构建。 2) 人力资源系统的数据的加载。 3) 人力资源系统的数据的查询。 职工基本信息 职工姓名,职工id,职工性别,职工年龄,入职年份,职位,所在部门i 阅读全文
posted @ 2016-12-04 10:10 大数据和AI躺过的坑 阅读(1118) 评论(0) 推荐(0) 编辑
摘要:原博文出自于: http://blog.csdn.net/oopsoom/article/details/39401391 感谢! Spark1.1推出了Uer Define Function功能,用户可以在Spark SQL 里自定义实际需要的UDF来处理数据。 因为目前Spark SQL本身支持 阅读全文
posted @ 2016-11-09 16:10 大数据和AI躺过的坑 阅读(6998) 评论(0) 推荐(0) 编辑
摘要:原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive.ql.exec.UDF 2.必须实现evalua 阅读全文
posted @ 2016-11-09 12:19 大数据和AI躺过的坑 阅读(3611) 评论(0) 推荐(1) 编辑
摘要:原博文出自于: http://blog.csdn.net/liuj2511981/article/details/8523084 感谢! Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景: Hive是基于Had 阅读全文
posted @ 2016-11-09 12:15 大数据和AI躺过的坑 阅读(1036) 评论(0) 推荐(0) 编辑
摘要:前言 第1章 为什么Spark SQL? 第2章 Spark SQL运行架构 第3章 Spark SQL组件之解析 第4章 深入了解Spark SQL运行计划 第5章 测试环境之搭建 第6章 Spark SQL之基础应用 第7章 ThriftServer和CLI 第8章 Spark SQL之综合应用 阅读全文
posted @ 2016-11-09 10:39 大数据和AI躺过的坑 阅读(927) 评论(0) 推荐(0) 编辑
摘要:原博文出自于: http://www.cnblogs.com/BYRans/p/5003029.html 感谢! Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组 阅读全文
posted @ 2016-11-07 22:56 大数据和AI躺过的坑 阅读(1649) 评论(0) 推荐(0) 编辑
摘要:原博文出自于: http://www.cnblogs.com/namhwik/p/5967910.html RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知 阅读全文
posted @ 2016-11-07 20:18 大数据和AI躺过的坑 阅读(6173) 评论(0) 推荐(0) 编辑
摘要:原博文来自于: http://blog.csdn.net/u012297062/article/details/52207934 感谢! 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而Dat 阅读全文
posted @ 2016-11-07 20:00 大数据和AI躺过的坑 阅读(2200) 评论(0) 推荐(0) 编辑
摘要:本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行 阅读全文
posted @ 2016-10-09 17:47 大数据和AI躺过的坑 阅读(1143) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示