摘要: 开卷有益——作者的话 原文来自http://dbaplus.cn/news-21-341-1.html 有时候真的感叹人生岁月匆匆,特别是当一个IT人沉浸于某个技术领域十来年后,蓦然回首,总有说不出的万千感慨。 笔者有幸从04年就开始从事大规模数据计算的相关工作,08年作为Greenplum 早期员 阅读全文
posted @ 2019-08-11 21:05 空谷幽兰~泊逸 阅读(7531) 评论(0) 推荐(2) 编辑
摘要: 本文转自https://www.cnblogs.com/skyme/p/5779885.html 简介及适用场景 如果想在数据仓库中快速查询结果,可以使用greenplum。 Greenplum数据库也简称GPDB。它拥有丰富的特性: 第一,完善的标准支持:GPDB完全支持ANSI SQL 2008 阅读全文
posted @ 2019-08-11 21:02 空谷幽兰~泊逸 阅读(705) 评论(0) 推荐(0) 编辑
摘要: 文章转自:http://chinabi.net/blog/user1/105/390.html 这是IT pub上一篇帖子引发出的问题,以前还真没去仔细思考这个问题:为什么要建立数据仓库,数据仓库和数据库的区别?因为理论上的优点说法都很多,但要真正很好地理解,能简洁地向客户阐述明白,让客户觉得建立数 阅读全文
posted @ 2019-08-11 20:20 空谷幽兰~泊逸 阅读(2331) 评论(0) 推荐(0) 编辑
摘要: 在PG数据库中,extract函数用于从一个日期中获取某个子集,比如获取年,月,日,时,分,秒等。例如: epoch这个字段也可以获取到相应的值,如图: 而epoch的含义官网上的原本解释如下: For date and timestamp values, the number of seconds 阅读全文
posted @ 2019-08-11 16:25 空谷幽兰~泊逸 阅读(9008) 评论(0) 推荐(1) 编辑
摘要: GP主要用于数据仓库领域,在GP数据库中,如果由于ETL重复跑数导致数据重复的话,就需要进行去重复操作。 一种方法是把某一时间段的数据全部删掉,然后重新跑数据,这样其实工作量也比较大,需要补数据,重跑ETL。 另一种方法就是把重复的数据删掉就行,本文就是针对Greenplum分布式数据库如何进行去重 阅读全文
posted @ 2019-08-11 16:01 空谷幽兰~泊逸 阅读(2654) 评论(1) 推荐(0) 编辑
摘要: Linux中有几个命令可以查看文件的内容,而不需要调用其他的文本编辑器,如vim. 1.file查看文件类型 file命令可以探测文件的内部,并能查看到文件是什么类型的。 2. cat命令 cat命令时一个用于显示文本文件中所有数据的比较好用的工具 cat test.txt cat 可以带一些参数, 阅读全文
posted @ 2019-08-11 14:01 空谷幽兰~泊逸 阅读(14877) 评论(0) 推荐(0) 编辑
摘要: 链接文件是Linux文件系统的一个优势。如需要在系统上维护同一文件的两份或者多份副本,除了保存多份单独的物理文件之外,可以采用保留一份物理文件副本和多个虚拟副本的方式,这种虚拟的副本就成为链接。链接是目录中指向文件真实位置的占位符。在Linux中有两种不同类型的文件链接: 1.符号链接。 2.硬链接 阅读全文
posted @ 2019-08-11 11:13 空谷幽兰~泊逸 阅读(3452) 评论(0) 推荐(0) 编辑