06 2017 档案

摘要:最近在看列存,最近学习的东西有点多啊! 列存的压缩的原理目前理解有以下几种方式: 1.列的数据类型已知,可以对其进行压缩。 2.列不需要对齐,比如本来只有1个字节,元组中就需要分配4个字节来存储。有些数据库系统要求四字节对齐,有些是八字节对齐。 3.将列的数据统一在另外一个表中存储,原始表中只存序号 阅读全文
posted @ 2017-06-29 16:59 狂神314 阅读(438) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.csdn.net/dc_726/article/details/41143175 1 为什么要按列存储 列式存储(Columnar or column-based)是相对于传统关系型数据库的行式存储(Row-basedstorage)来说的。简单来说两者的区别就是如何组 阅读全文
posted @ 2017-06-29 16:42 狂神314 阅读(421) 评论(0) 推荐(0) 编辑
摘要:数据仓库初体验 数据库仓库架构以前弄的很简单:将各种源的数据统一汇聚到DW中,DW没有设计,只是将所有数据汇聚起来; ETL也很简单,只是将数据同步到DW中,只是遇到BUG时,处理一些错误数据,例如:字符串中有分隔符,有回车等等。 仔细看了一些概念后,发现DW是需要经过仔细的设计架构的,下面还是纪录 阅读全文
posted @ 2017-06-29 10:52 狂神314 阅读(1213) 评论(0) 推荐(1) 编辑
摘要:这两天接触到ODS,开始很纳闷,有了DW(Data Warehouse)干嘛还要ODS(Operational Data Store),于是不查不知道,一查吓一跳,这里面还有这么多道道,这里总结一下,当作学习了。 简单说: DW 数据仓库存储是一个面向主题的,反映历史变化数据,用于支撑管理决策。 O 阅读全文
posted @ 2017-06-28 22:24 狂神314 阅读(37237) 评论(0) 推荐(3) 编辑
摘要:ETL分别是“Extract”、“ Transform” 、“Load”三个单词的首字母缩写也就是“抽取”、“转换”、“装载”,但我们日常往往简称其为数据抽取。 ETL是BI/DW(商务智能/数据仓库)的核心和灵魂,按照统一的规则集成并提高数据的价值,是负责完成数据从数据源向目标数据仓库转化的过程, 阅读全文
posted @ 2017-06-28 22:15 狂神314 阅读(4080) 评论(0) 推荐(0) 编辑
摘要:之前在研究pgpoll时,发现trigger_file参数指定的文件存在后,会自动将standby节点提升为可写节点。不需要手动执行pg_ctl promote,但是这个时间一般有延迟,因为进程会定期检查复制过程。 今天发现primary_conninfo信息改变,复制过程不会变化,需要重启stan 阅读全文
posted @ 2017-06-28 18:33 狂神314 阅读(1999) 评论(0) 推荐(0) 编辑
摘要:转自:http://blog.chinaunix.net/uid-639516-id-2692517.html 一.RAID定义RAID(Redundant Array of Independent Disk 独立冗余磁盘阵列)技术是加州大学伯克利分校1987年提出,最初是为了组合小的廉价磁盘来代替 阅读全文
posted @ 2017-06-27 09:45 狂神314 阅读(422) 评论(0) 推荐(0) 编辑
摘要:DataV 是阿里云出品的拖拽式可视化工具,专精于业务数据与地理信息融合的大数据可视化。 阅读全文
posted @ 2017-06-26 15:59 狂神314 阅读(163) 评论(0) 推荐(0) 编辑
摘要:转自:http://time-track.cn/postgresql-window-function.html PostgreSQL提供了窗口函数的特性。窗口函数也是计算一些行集合(多个行组成的集合,我们称之为窗口window frame)的数据,有点类似与聚集函数(aggregate functi 阅读全文
posted @ 2017-06-26 15:55 狂神314 阅读(589) 评论(0) 推荐(0) 编辑
摘要:关于重复行问题: 在SQL Server中则可以自动排出重复行,不需要处理。在Oracle中经常遇到upsert语法,来排出冲突行。在PostgreSQL中,也需要手动排出重复行,否则会爆出错误,upsert用法如下: 经过测试,发现这种方法效率很低,于是将upsert过程拆分为两个过程,先inse 阅读全文
posted @ 2017-06-22 10:24 狂神314 阅读(4306) 评论(0) 推荐(0) 编辑
摘要:wal_level = archive archive_mode = on archive_command = 'test ! -f /usr/local/pgsql/archive_xlog/%f && cp %p /usr/local/pgsql/archive_xlog/%f' 阅读全文
posted @ 2017-06-12 17:27 狂神314 阅读(4963) 评论(0) 推荐(0) 编辑
摘要:master-standby情况下,发生如下行为: 1.master停掉后,standby做为新的master(可能存在部分事物没有同步到standby中)。 2.新master运行过程中出错,进行恢复,时间线发生变化。 3.旧master启动前,先跟新master进行pg_rewind,会出现时间 阅读全文
posted @ 2017-06-09 17:49 狂神314 阅读(794) 评论(0) 推荐(0) 编辑
摘要:PostgreSQL 在 checkpoint 之后在对数据页面的第一次写的时候会将整个数据页面写到 xlog 里面。 当出现主机断电或者OS崩溃时,redo操作时通过checksum发现“部分写”的数据页,并将xlog中保存的这个完整数据页覆盖当前损坏的数据页,然后再继续redo就可以恢复整个数据 阅读全文
posted @ 2017-06-09 11:15 狂神314 阅读(756) 评论(0) 推荐(0) 编辑
摘要:自己的理解: 第一范式:数据列必须是一个单一的意思,不能再拆分了。 第二范式: 1.表必须有主键。 2.非主键列必须完全依赖于主键,而不能只依赖主键一部分。 第三范式:非主键列必须直接依赖于主键列,而不存在依赖转移。 参考资料: http://blog.csdn.net/famousdt/artic 阅读全文
posted @ 2017-06-09 09:27 狂神314 阅读(365) 评论(0) 推荐(0) 编辑
摘要:转了一部分。稍后再修改。 三种多表Join的算法: 一. NESTED LOOP: 对于被连接的数据子集较小的情况,嵌套循环连接是个较好的选择。在嵌套循环中,内表被外表驱动,外表返回的每一行都要在内表中检索找到与它匹配的行,因此整个查询返回的结果集不能太大(大于1 万不适合),要把返回子集较小表的作 阅读全文
posted @ 2017-06-07 15:10 狂神314 阅读(3671) 评论(0) 推荐(0) 编辑

点击右上角即可分享
微信分享提示