数据仓库-基本框架和内容
数据仓库:
维度建模
数据分层
命名规范
元数据管理
数据模型设计
前提设定: 物理世界的每一个度量事件 与对应的 事实表行 具有一对一的关系
内涵:数据组织,存储和使用的方法
注意方面: 功能实现 质量管理 性能效率 存储成本和收益 可扩展和方便维护
适应变化,一致性,及时, 安全 可追溯
适应变化: 业务快速发展, 人员快速变化, 业务功底不足
要什么:
指标和度量: 原子型
比例 比率 变化型 排名型
1.维度建模:
01.维度建模基本概念:
主题域 粒度 维度 度量 事实表
维度: 缓慢变化维
02.维度建模5步骤:
确定主题域 业务过程
确定粒度 特定级别的细节数据,细节程度 01.粒度是维度的组合 02 业务含义
确定维度
确定度量 创建事实表
说明:
维度属性:
查询的约束条件 分组汇总和排序, 确定主维度 和相关维度,从相关维度表中选择或生成新的维度
多值维度
维度的层次结构; 层次结构扁平化 层次桥接表
时间周期: 计算周期
03.维度
缓慢变化维 : 重新维度值 增加维度行 增加维度列
维度建模总线
维度退化
维度整合和拆分
04.事实表选用
事务事实表
周期快照事实表
累积快照事实表
2 数据分层
从业务角度: 运营层(数据缓存,数据准备)、公共层(模型,标准)、服务层(应用服务,数据产品)
从技术角度
数据近源层、
公用模型层 (公共明细层、公共汇总层、公共维度层)
数据应用层
3.命名规范
数据表名 表意 表字符长度
4.元数据管理
技术元数据
业务元数据
5.数据管理和评估
数据分级: 分级依据-指标敏感等级,-指标重要等级
价值评估 容错率 调用率
6.指标分类体系
以数仓分层(ODS-CDM<DWD/DWS/DIM>-ADS),
维度建模作为理论基础,构建数据总线。标准化数据域、业务过程、维度、度量,
按原子指标、派生指标(原子指标+业务限定+时间周期构建)、衍生指标(派生指标的简单复合运算),形成指标构建方式分类体系。
参考: