浅析数据生命周期

下文是对数据生命周期的浅析,欢迎批评指正。

 1、每个缩略词的简要说明:

OLTP : 联机事务处理

DSA :  数据准备区

DW :   数据仓库

BISW : 商业智能语义模型

ETL :   提取,转换和加载

DM :    数据挖掘

 

OLTP系统的重点就是数据输入———增删查改数据。 此时数据模型是规范化的,保持最小的数据冗余。

优点是为数据输入和数据一致性提供了良好的性能。比如当需要修改某处属性时,仅需要一个位置上的修改,减少出错率。 

缺点是数据不适合报告,因为规范化模型涉及多个表,查询复杂性能差。 

 

DW系统是一个以检索数据和报告为目的设计的环境。 模型故意进行了冗余、减少表和简化表关系。

数据仓库设计称为星型架构,星型架构包括多个维度表和一个事实表。维度表表示要分析的数据主题,比如订单系统里,要分析客户、产品等维度。事实表包含事实和度量,比如订单数量。

另一种数据仓库架构称为雪花架构,很简单,星型架构的维度表进行规范化成多个维度表则为雪花架构。

 

从源系统提取数据、处理数据并将其加载到数据仓库的过程,称为ETL。

ETL过往往会涉及OLTP和DW之间数据准备区的(DSA)使用,DSA通常驻留在关系型数据库中,且DSA不会对最终用户开放。

 

BISW 是完整BI堆栈应用的模型,目的是提供灵活、高效的分析和报告功能。体系结构分三层:数据模型、业务逻辑与查询、数据访问。

 

DM 数据挖掘(后续补充......)

 

posted @ 2017-02-23 19:03  VictorGuan  阅读(657)  评论(0编辑  收藏  举报