名词解释:数据仓库
数据仓库(DW),将大量用于事务处理的传统数据库数据进行清理、抽取和转换,并按决策主题的需要进行重新组织。大量组织机构已经发现,在当今这个充满竞争和快速发展的世界,数据仓库是一个很有价值的工具。数据仓库系统构造方面的专家W.H.Inmon定义:“数据仓库是一个面向主题的、集成的、时变的、非易失的数据集合,支持管理部门的决策过程”。这个定义指出了数据仓库的主要特征:面向主题的、集成的、时变的、非易失的,将数据仓库与其他数据存储系统(如关系数据库系统、事务处理系统和文件系统)区别开来。
首先,面向主题的,它需要为决策者提供综合信息,这类信息的组织应当以企业中业务工作的主题内容为主线,它是数据和算法的统一。数据从外部数据源进入数据仓库后,在一个主题的引导下,经汇总统一和必要的变换,最后以最适于使用的方式存放起来。因为只有这样的组织方式能提供信息的全方位可用。数据仓库回答的是如:“我们的产品在哪个地区的市场份额最小”、“我们的产品质量问题出在哪里?”等带有主题特征的问题,而传统的数据库回答如“我们的年产量是多少?”等专门性、片断的问题。
其次,集成化。数据仓库的数据虽然来自日常操作数据,但并不是这些数据的简单归并或搬家,其保存的数据是日常操作数据的增值和统一处理,如统一的命名规则,统一的度量单位等,因为日常操作数据的结构,方法的实现是不同的编码、不同的命名规则等。但是对于数据仓库来说,不管如何设计、如何实现、结果必须一致,数据和方法必须按照单一的、全局可接受的格式存储。只有这样,DSS才能在使用这些数据时不必关心这些数据的一致性问题。
第三,历史性,反映历史变化。操作型数据库主要关心当前某一时间段内的数据,而数据仓库中的数据通常包含历史信息,系统记录了企业从过去某一地点到目前的各个阶段的信息,通过这些信息,可以对企业的发展历程和未来趋势做出定量分析和预测。
第四,相对稳定性。操作型数据库中的数据通常实时更新,数据根据需要及时发生变化。数据仓库的数据主要供企业决策分析之用,所涉及的数据操作主要是数据查询,一旦某个数据进入数据仓库后,一般情况下将被长期保留,也就是数据仓库中一般有大量的查询操作,但修改和删除操作很少,通常只需要定期的加载、刷新。
概言之,数据仓库是一种语义上一致的数据存储,它充当决策支持数据模型的物理实现,并存放企业战略决策所需信息。数据仓库也常常被看作一种体系结构,通常将异种数据源中的数据集成在一起,支持结构化和专门的查询与分析,支持决策的制定。