随笔分类 - Spark SQL概念学习系列
1)Shark 的下一代技术是Spark SQL 2)Shark 的进化版本是Spark SQL 2) 支持结构化数据SQL查询的查询引擎Spark SQL 3) 提供在大数据上的SQL查询功能
摘要:不多说,直接上干货! 性能调优 Caching Data In Memory Spark SQL可以通过调用sqlContext.cacheTable("tableName") 或者dataFrame.cache(),将表用一种柱状格式( an inmemory columnar format)缓
阅读全文
摘要:不多说,直接上干货! 用户自定义函数 注册udf 我们可以使用Spark 支持的编程语言编写好函数,然后通过Spark SQL 内建的方法传递进来,非常便捷地注册我们自己的UDF 在Scala 和Python 中,可以利用语言原生的函数和lambda 语法的支持,而在Java 中,则需要扩展对应的U
阅读全文
摘要:不多说,直接上干货! parkSQL作为分布式查询引擎:两种方式 除了在Spark程序里使用Spark SQL,我们也可以把Spark SQL当作一个分布式查询引擎来使用,有以下两种使用方式: 1.Thrift JDBC/ODBC服务 2.CLI SparkSQL作为分布式查询引擎:Thrift J
阅读全文
摘要:不多说,直接上干货! SparkSQL 与 Spark Core的关系 Spark SQL构建在Spark Core之上,专门用来处理结构化数据(不仅仅是SQL)。 Spark SQL在Spark Core的基础上针对结构化数据处理进行很多优化和改进, 简单来讲: Spark SQL 支持很多种结构
阅读全文
摘要:不多说,直接上干货! DataFrame的推出,让Spark具备了处理大规模结构化数据的能力,不仅比原有的RDD转化方式更加简单易用,而且获得了更高的计算性能。Spark能够轻松实现从MySQL到DataFrame的转化,并且支持SQL查询。 图 DataFrame与RDD的区别 从上面的图中可以看
阅读全文
摘要:Spark SQL基本原理 1、Spark SQL模块划分 2、Spark SQL架构--catalyst设计图 3、Spark SQL运行架构 4、Hive兼容性 1、Spark SQL模块划分 Spark SQL模块划分为Core、caralyst、hive和hive- ThriftServer
阅读全文
摘要:很多人一个误区,Spark SQL重点不是在SQL啊,而是在结构化数据处理! Spark SQL结构化数据处理 概要: 01 Spark SQL概述 02 Spark SQL基本原理 03 Spark SQL编程 04 分布式SQL引擎 05 用户自定义函数 06 性能调优 Spark SQL概述
阅读全文
摘要:通过该案例,给出一个比较完整的、复杂的数据处理案例,同时给出案例的详细解析。 人力资源系统的管理内容组织结构图 1) 人力资源系统的数据库与表的构建。 2) 人力资源系统的数据的加载。 3) 人力资源系统的数据的查询。 职工基本信息 职工姓名,职工id,职工性别,职工年龄,入职年份,职位,所在部门i
阅读全文
摘要:原博文出自于: http://blog.csdn.net/oopsoom/article/details/39401391 感谢! Spark1.1推出了Uer Define Function功能,用户可以在Spark SQL 里自定义实际需要的UDF来处理数据。 因为目前Spark SQL本身支持
阅读全文
摘要:原博文出自于:http://blog.csdn.net/longzilong216/article/details/23921235(暂时) 感谢! 自己写代码时候的利用到的模板 UDF步骤: 1.必须继承org.apache.hadoop.hive.ql.exec.UDF 2.必须实现evalua
阅读全文
摘要:原博文出自于: http://blog.csdn.net/liuj2511981/article/details/8523084 感谢! Hive进行UDF开发十分简单,此处所说UDF为Temporary的function,所以需要hive版本在0.4.0以上才可以。一、背景: Hive是基于Had
阅读全文
摘要:前言 第1章 为什么Spark SQL? 第2章 Spark SQL运行架构 第3章 Spark SQL组件之解析 第4章 深入了解Spark SQL运行计划 第5章 测试环境之搭建 第6章 Spark SQL之基础应用 第7章 ThriftServer和CLI 第8章 Spark SQL之综合应用
阅读全文
摘要:原博文出自于: http://www.cnblogs.com/BYRans/p/5003029.html 感谢! Spark SQL 之 DataFrame 转载请注明出处:http://www.cnblogs.com/BYRans/ 概述(Overview) Spark SQL是Spark的一个组
阅读全文
摘要:原博文出自于: http://www.cnblogs.com/namhwik/p/5967910.html RDD与DataFrame转换1. 通过反射的方式来推断RDD元素中的元数据。因为RDD本身一条数据本身是没有元数据的,例如Person,而Person有name,id等,而record是不知
阅读全文
摘要:原博文来自于: http://blog.csdn.net/u012297062/article/details/52207934 感谢! 使用Spark SQL中的内置函数对数据进行分析,Spark SQL API不同的是,DataFrame中的内置函数操作的结果是返回一个Column对象,而Dat
阅读全文
摘要:本博文的主要内容是: 1. Hive本质解析 2. Hive安装实战 3. 使用Hive操作搜索引擎数据实战 SparkSQL前身是Shark,Shark强烈依赖于Hive。Spark原来没有做SQL多维度数据查询工具,后来开发了Shark,Shark依赖于Hive的解释引擎,部分在Spark中运行
阅读全文