数据仓库的关键特征
按照W.H.Inmon 这位数据仓库权威的说法,“数据仓库是一个面向主题的、集成的、时变
的、非易失的数据集合,支持管理部门的决策过程”。这个简短而又全面的定义指出了表明数
据仓库主要特征的四个关键词:面向主题的、集成的、时变的、非易失的,将数据仓库与其
他数据存储系统(如关系数据库系统、事务处理系统和文件系统)区别开来。让我们进一步
看看这些关键特征。
面向主题的(subject-oriented):数据仓库围绕一些主题,如顾客、供应商、产品和销
售组织。数据仓库关注决策者的数据建模与分析,而不是集中于组织机构的日常操作和事务
处理。因此,数据仓库排除对决策无用的数据,提供特定主题的简明视图。
集成的(integrated):通常,构造数据仓库是将多个异种数据源,如关系数据库、一般
文件和联机事务处理记录集成在一起。使用数据清理和数据集成技术,确保命名约定、编码
结构和属性度量等指标的一致性。
时变的(time-variant):数据存储从历史的角度(例如过去5-10 年)提供信息。数据
仓库中的关键结构,隐式或显式地包含时间元素。
非易失的(nonvolatile):数据仓库的数据是有历史保存意义的,数据仓库的数据也只
使用添加的方式(不用时间的数据有时间戳来区分),进入了数据仓库的数据一般情况下是不
需要更新的,这样就保证了数据的稳定性。通常,它只需要三种数据访问:数据的初始化装
入、数据的添加和数据查询访问。
概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,
并存放企业战略决策所需信息。数据仓库通过将异种数据源中的数据集成在一起而构造,支
持结构化的和专门的查询、分析报告和决策。