随笔分类 -  数据仓库

数据开发,数据仓库,ETL
摘要:从事数仓工作,在工作学习过程也看了很多数据仓库方面的数据,此处整理了数仓中经典的,或者值得阅读的书籍,推荐给大家一下,希望能帮助到大家。建议收藏起来,后续有新的书籍清单会更新到这里。 书籍推荐 《数据仓库工具箱(第3版)——维度建模权威指南》 本书会介绍基本知识,然后逐个讨论具体实例内容,最后进行综 阅读全文
posted @ 2022-05-12 19:09 张飞的猪 阅读(773) 评论(0) 推荐(0) 编辑
摘要:这边文章聊聊自己对数据治理开发实践的一些思路,就是聊聊怎么开始去做数据治理这件事情。说起数据治理,有时候虽然看了很多文章,看了很多的介绍,了解数据治理的理论,但是实际上需要我们去搞的时候,就会踩很多的坑。这里记一下自己做数据治理的一些思路,做做笔记,也分享给需要的同学。 当然,想要做数据治理,想要学 阅读全文
posted @ 2022-05-11 21:15 张飞的猪 阅读(322) 评论(0) 推荐(0) 编辑
摘要:什么是数据治理,数据治理包含哪些方面?大数据时代的到来,给了我们很多的机遇,也有很多的挑战。最基础的调整也是大数据的计算和管理,数据治理是一个特别重要的大数据基础,他保证着数据能否被最好的应用,保证着数据的安全,治理等。那么数据治理到底能治什么,怎么治? 数据治理主要包含七个方面。 ####主数据管 阅读全文
posted @ 2022-05-06 21:32 张飞的猪 阅读(781) 评论(0) 推荐(0) 编辑
摘要:拉链表是数据仓库中特别重要的一种方式,它可以保留数据历史变化的过程,这里分享一下拉链表具体的开发过程。 维护历史状态,以及最新状态数据的一种表,拉链表根据拉链粒度的不同,实际上相当于快照,只不过做了优化,去除了一部分不变的记录,通过拉链表可以很方便的还原出拉链时点的客户记录。 这里用商品价格的变化作 阅读全文
posted @ 2022-05-06 21:29 张飞的猪 阅读(280) 评论(2) 推荐(0) 编辑
摘要:数据仓库的重要特点之一是反映历史变化,所以如何处理维度的变化是维度设计的重要工作之一。缓慢变化维的提出是因为在现实世界中,维度的属性并不是静态的,它会随着时间的流逝发生缓慢的变化,与数据增长较为快速的事实表相比,维度变化相对缓慢。阴齿这个就叫做缓慢变化维。 这里介绍的就是这些维度变化的处理,这边整理 阅读全文
posted @ 2022-05-06 21:24 张飞的猪 阅读(195) 评论(0) 推荐(0) 编辑
摘要:所谓的事实表和维度表技术,指的就是如何和构造一张事实表和维度表,是的事实表和维度表,可以涵盖现在目前的需要和方便后续下游数据应用的开发。 事实表,就是一个事实的集合。事实来自业务过程的度量,基本上以数量值表示。事实表行对应一个事实,一个事实对应一个物理可以观察的事件,例如,再零售事件中,销售数量与总 阅读全文
posted @ 2022-04-20 21:25 张飞的猪 阅读(527) 评论(0) 推荐(0) 编辑
摘要:规范设计在这里取《大数据之路:阿里巴巴大数据实践》中的定义,这里记录一下本人对这一块自己的理解。 规范定义指以维度建模作为理论基础 构建总线矩阵,划分和定义数据域、业务过程、维度、度量 原子指标、修饰类型、修饰词、时间 周期、派生指标。 所谓的规范的定义,简单理解,如果把数据当作货物,那就是货物的分 阅读全文
posted @ 2022-04-20 12:02 张飞的猪 阅读(567) 评论(0) 推荐(2) 编辑
摘要:目前主流的数据仓库分层大多为四层,也有五层的架构,这里介绍基本的四层架构。 分别为数据贴源层(ods)、数据仓库明细层(dw)、多维明细层(dws)和数据集市层(dm)。 阅读全文
posted @ 2022-04-14 12:03 张飞的猪 阅读(913) 评论(0) 推荐(1) 编辑
摘要:数据仓库主要有四种架构,Kimball的DW/BI架构、独立数据集市架构、辐射状企业信息工厂Inmon架构、混合Inmon与Kimball架构。不过不管是那种架构,基本上都会使用到维度建模。 <b>Kimball的DW/BI架构</b>,可以参考这篇文章 数据仓库(4)基于维度建模的KimBall架 阅读全文
posted @ 2022-03-31 14:56 张飞的猪 阅读(405) 评论(0) 推荐(0) 编辑
摘要:基于维度建模的KimBall架构,将数据仓库划分为4个不同的部分。分别是操作型源系统、ETL系统、数据展现和商业智能应用,如下图。 操作型源系统,指的就是面向用户的各类系统,如app、网站、ERP、CRM等系统。这一块就是我们数据仓库的数据来源,并且这类数据往往有各自的格式和内容,我们同步过来之后, 阅读全文
posted @ 2022-02-23 19:33 张飞的猪 阅读(256) 评论(0) 推荐(0) 编辑
摘要:维度建模是一种将数据结构化的逻辑设计方法,也是一种广泛应用的数仓建模方式,它将客观世界划分为度量和上下文。度量是常常是以数值形式出现,事实周围有上下文包围着,这种上下文被直观地分成独立的逻辑块,称之为维度。它与实体-关系建模有很大的区别,实体-关系建模是面向应用,遵循第三范式,以消除数据冗余为目标的 阅读全文
posted @ 2022-02-15 23:11 张飞的猪 阅读(518) 评论(0) 推荐(0) 编辑
摘要:数据仓库(2)数仓、大数据与传统数据库的区别数据仓库与大数据区别,数据仓库与数据库的区别,大数据与传统数据库的区别 阅读全文
posted @ 2022-02-07 19:28 张飞的猪 阅读(691) 评论(0) 推荐(0) 编辑
摘要:数据仓库(1)什么是数据仓库,数仓有什么特点数据仓库,简称数仓,英文名称为Data Warehouse,可简写为DW或DWH。数据仓库,是为企业所有级别的决策制定过程,提供所有类型数据支持的战略集合。它是单个数据存储,出于分析性报告和决策支持目的而创建。 为需要业务智能的企业,提供指导业务流程改进、监视时间、成本、质量以及控制。这里会介绍涉及的数仓数据开发技术,数仓的作用,数仓的特点等。 阅读全文
posted @ 2022-01-28 17:41 张飞的猪 阅读(1177) 评论(0) 推荐(0) 编辑