数据仓库建设之数仓分层
一、数据架构及分层
序号 | 层次 | 名称 | 简称 | 功能定位 |
1 | 数据仓库 | 数据缓冲层 | STG | 源业务系统的数据增量或快照,保存细节数据,按日存储为主 |
2 | 贴源明细层 | ODS |
用于合并、存储生产系统历史至今数据,按照业务归属存储数据,并进行数据脱敏及脏数据清洗处理 |
|
3 | 整合明细层 | DWD | 按照业务过程整合明细数据,在保持原子粒度的基础上,完成名称+维度标准化、数据预关联,并以逆范式宽表落地 | |
4 | 共性加工层 | DWS | 基于应用集市沉淀的通用类属性、指标而创建面向支持应用系统、数据分析与数据挖掘的公共数据层 | |
5 | 公共维度层 | DIM | 存放公共维度,个性维度由集市自行建设和维护 | |
6 | 数据集市 | 集市基础层 | DMX_BC | 基于仓内已接入数据或新接入数据进行预汇总、预连接和预加工,快速响应应用层需求 |
二、详细说明
2.1 数据缓冲层-STG
1、功能定义:Stage,又称数据中转区,该层通过ETL过程获取源业务系统的数据增量,按日存储明细数据。为ODS层提供基础数据。
2、设计原则
a)统一数据源接口,按天保存细节数据;
b)有较快的响应速度,重点保证数据的快速、准确入库;
c)按照业务系统划分;
d)数据粒度与源业务系统保持一致;
e)不对外开放。
3、存储策略
a)增量方式存储;
b)永久保留,但对超期数据进行归档处理。
2.2 贴源明细层-ODS
1、功能定义:该层负责合并、存储生产系统历史至今数据,按照业务归属组织数据,并进行脱敏及脏数据清洗处理。
a)起到隔离作用,屏蔽源系统数据结构变更、切库迁移等技术性变更
b)为后续主题模型、应用集市和数据探索区提供基础数据支撑
2、设计原则:
a)按照业务系统划分
b)数据粒度与源系统保持一致
c)可按日、月、季等进行分表
d)脱敏及关联列处理
3、存储策略:
a)增量方式存储
b)数据保留时间依据实际业务需求而定
2.3 整合明细层-DWD
1、功能定义:该层按照主题划分对核心业务数据进行企业级整合,在保持原有数据粒度的基础上,完成标准化(维度、代码)以及数据预管理操作。
2、设计原则:
a)混合方式建模,多数以逆范式宽表落地
b)本层开始标准化
c)支持轻度业务变化的隔离
d)支持预关联及适当的预计算操作
e)围绕核心业务数据,分主题进行组织和建设
f)包括当期的和较长的时间的历史数据
g)消除了业务系统间数据的不一致性,保持原子粒度
h)兼顾存储空间占用
3、存储策略:
a)存储方式以增量及快照表为主
b)快照数据保留时间视实际业务需求及存储规划而定
2.4 共性加工层-DWS
1、功能定义:该层基于应用集市沉淀的通用类属性、指标而创建的,面向支持应用系统、数据分析与数据挖掘的公共数据层
2、设计原则:
a)体现数据模块化原则
b)集市共性需求下沉,统一公共数据出口
c)减少上层对ODS的依赖
d)以汇总、聚合等升维操作为主
e)同时存在粗、细粒度的汇总加工数据
f)围绕数据总线建设
g)维度建模,星型模型
3、存储策略:
a)存储方式以增量及快照表为主
b)快照数据保留时间视实际业务需求及存储规划而定
2.5 其它
1、维度层IDM
功能定义:维度是对具体分析对象的分析角度,维度要具备丰富的属性,历史信息的可追溯性,对通用的维表要保持一致性
2、敏感处理层SDP
功能定义:负责敏感数据加工处理,仅允许脱敏后的特征结果落地存储,该层的使用及访问均受到严格管控
3、数据补录层ADD
功能定义:用于支撑数据补录需求,为线下产生的小批量业务数据提供快速接入通道