摘要: 1.关于Greenplum的PL/pgSQL Greenplum数据库的PL/pgSQL是一种可加载的过程化语言, Greenplum数据库中已经默认安装和注册了改语言。用户可以使用SQL语句,函数和操作符来创建自定义函数。 PL/pgSQL是Oracl... 阅读全文
posted @ 2018-11-21 12:31 大数据技术与数仓 阅读(221) 评论(0) 推荐(0) 编辑
摘要: CREATE FUNCTION 定义一个函数. 语法 CREATE [OR REPLACE] FUNCTION name ( [ [argmode] [argname] argtype [ { DEFAULT | = } defexpr ] [, ...] ]... 阅读全文
posted @ 2018-11-21 12:24 大数据技术与数仓 阅读(428) 评论(0) 推荐(0) 编辑
摘要: CLOSE 描述:关闭一个游标 语法: CLOSE cursor_name 注意:Greenplum数据库不支持显示地打开(open)游标,当一个游标被声明的时候就会被打开,使用declare语句声明并且打开一个游标 DECLARE 描述:定义一个游标 语... 阅读全文
posted @ 2018-11-21 12:21 大数据技术与数仓 阅读(386) 评论(0) 推荐(0) 编辑
摘要: 目录 一、概述 二、使用gpfilespace创建文件空间 三、创建表空间(Tablespace) 四、使用表空间存储数据库对象 五、查看创建的表空间和文件空间 六、删除表空间和文件空间 一、概述 表空间(Tablespace)允许数据库管理员在每个机器上... 阅读全文
posted @ 2018-11-14 23:08 大数据技术与数仓 阅读(1210) 评论(0) 推荐(0) 编辑
摘要: 一、发展历史 Flink起源于一个名为Stratosphere的研究项目,目的是建立下一代大数据分析平台,于2014年4月16日成为Apache孵化器项目。Stratosphere的最初版本是基于Neffele的研究论文。下面的图表显示了Stratospher... 阅读全文
posted @ 2018-11-13 18:05 大数据技术与数仓 阅读(332) 评论(0) 推荐(0) 编辑
摘要: 对于一张数据表,如下图所示 对上述表实现分组统计查询: select pageid,age,count(1) from pv_users group by pageid,age; 将上述的SQL查询语句改写成Spark的代码,如下: package com.... 阅读全文
posted @ 2018-11-13 10:43 大数据技术与数仓 阅读(222) 评论(0) 推荐(0) 编辑
摘要: 对于某些工作负载,可以通过在内存中缓存数据或打开一些实验选项来提高性能。 1.在内存中缓存数据 Spark SQL可以通过调用spark.catalog.cacheTable("tableName")或dataFrame.cache()使用内存中的列式格式来缓... 阅读全文
posted @ 2018-11-02 17:59 大数据技术与数仓 阅读(319) 评论(0) 推荐(0) 编辑
摘要: 版权声明:本文为博主原创(翻译)文章,未经博主允许不得转载。https://blog.csdn.net/jmx_bigdata/article/details/83619838 目录 一、 普通的Load/Save方式 1. 手动指定文件格式 2.使用SQ... 阅读全文
posted @ 2018-11-01 14:26 大数据技术与数仓 阅读(421) 评论(0) 推荐(0) 编辑
摘要: 一、概述 DataFrames的内置函数提供了常见的聚合函数,比如count(), countDistinct(), avg(), max(), min()等,但是这些函数是为DataFrames而设计的,Spark SQL也有适用于强类型的Datasets的... 阅读全文
posted @ 2018-11-01 11:49 大数据技术与数仓 阅读(219) 评论(0) 推荐(0) 编辑
摘要: 一、概述 Spark SQL支持两种不同的方式将RDD转换为DataFrame。第一种是使用反射来推断包含特定类型对象的RDD的模式,这种基于反射的方式可以提供更简洁的代码,如果在编写Spark应用程序时,已经明确了schema,可以使用这种方式。第二种方式是... 阅读全文
posted @ 2018-10-31 15:11 大数据技术与数仓 阅读(1039) 评论(0) 推荐(0) 编辑