在数据仓库建设的后期,由于企业的多个部门都开始使用数据仓库所提供的服务。而这些部门之间又往往对数据仓库有不同的要求,很多人就提出了在数据仓库基础上构建数据集市的概念。
由于数据集市在现实中有很多种结构,因此我们仅仅从需求的角度来提出数据集市的概念:数据集市是为了满足某种特定的应用或者在一个特殊的范围内使用的数据仓库的一部分数据。
与数据仓库不同的是数据集市的数据要少很多。而且数据内容上有很大的区别。我们从下面几个方面来看他们的区别。
(1)数据内容:数据仓库中不仅仅包含汇总数据,而且还包含细节数据。而在数据集市中,仅仅包含汇总数据。
(2)历史数据:数据仓库中包含所有的历史数据,但在数据集市中只包含非常有限的历史数据。
(3)模型结构:数据仓库中的模型比较简单,但是数据集市中的模型为了支持各种不同的应用往往变得非常复杂。
(4)应用范围:数据仓库中的数据是为了满足将来可能的需求来设计的,而数据集市的数据是为了满足特定的需求来设计的。
数据集市结构示意图