haha-an-apple

数据仓库建设之模型设计

以下为数仓建设知识积累:

一、数据仓库建设流程

 二、数据仓库建设方法论

数据驱动+应用驱动模式相结合,保证数据模型具有良好的稳定性与可扩展性:

 

 三、模型设计方法

1、设计规范

(1)需求规范

规范化需求提出途径、留档存底、避免重复提出

(2)设计过程

规范化需求分析过程,设计过程,避免遗漏事项造成不利影响

(3)模型命名

统一模型命名,风格统一,便于管理、维护及使用

(4)字段命名

统一字段命名,实体属性规范化,整洁干练

(5)文档输出

规范化格式文档,易于业务人员理解和使用,便于沟通

2、建模方法

公共模型层侧重采用维度建模为主,范式建模为辅的建模设计方法,最大化发挥数据管理、应用性能、灵活扩展等优势

下面简要介绍范式建模与维度建模,并以具体实例来进行实践:

3.2.1 范式建模与维度建模

  范式建模 维度建模
定义  范式建模即实体关系(E-R)建模,ER模型有两个基本组成部分,实体+实体之间的关系  维度建模是专门用于分析型数据仓库、数据集市建模的方法,以分析决策需求出发构建模型,重点解决用户如何更快速完成分析需求,有较好的大规模复杂查询响应性能
数据流向  从数据的流向上看是自上而下的,“上”即为数据的上游,“下”即为数据的下游,即从分散异构的数据源---->数据仓库---->数据集市  从流程上看是自下而上,即从数据集市---->数据仓库---->分散异构的数据源
 导向  以数据源头为导向,然后一步步探索获取尽量符合预期的数据,因为数据源往往是异构的,所以更加强调数据的清洗工作,将数据抽取为实体-关系模型,不强调事实表与维度表的概念  以最终任务为导向,将数据按照目标拆分出不同的表需求,数据会抽取为事实-维度模型,数据源经ETL转化为事实表和维度表导入数据集市,以星型模型或雪花模型等方式构建维度数据仓库
 特点  范式建模方法能在最大程度上减少冗余,并保证数据结构具有足够的灵活性和可扩展性,但应用性能差  在应用性能上占据明显优势;非范式,允许数据冗余,其结构简单易于理解,可直观反映业务问题

3.2.2 应用:具体实例—电商购物

 源表(来自于电商系统后台数据库中的表):用户信息表、城市信息表、用户等级表、商品信息表、用户订单表

 

 范式建模:将源表抽取为实体表、关系表:

 

 

 维度建模将源表抽取为事实表与维度表:

 

 3、技术路线

采用总线架构的技术框架、确保主题模型的可扩展性:(1)一致性维度:全局共享性维度统一;(2)一致性实事实:全局事实度量名称、概念、口径一致。

4、事实与维度

3.4.1 维度

  • 维度是用来描述:谁、何时、何地、为何、如何
  • 数据仓库的能力直接与维度属性的质量和深度成正比
  • 当不同的维度表的属性具有相同列名和领域内容时,成维度表具有一致性

3.4.2 事实

  • 事务性交易事实表:记录事务层面的事实,保存的是最原子的数据,也称“原子事实表”
  • 周期快照事实表:具有规律性、可预见的时间间隔来记录事实,时间间隔如每天、每月、每年等
  • 累积快照事实表:具有确定的开始和结束事件,并且记录关键事件或者过程的里程碑,因此包含了很多日期的外键

5、建模步骤

 

(转载请注明出处)

 

posted on 2023-02-22 12:54  哈哈才是我  阅读(82)  评论(0编辑  收藏  举报