专注于中国的商业智能

导航

KDT#36 关于集中式的考虑

在数据仓库领域,集中式(Centralized)是个讨论的很多的概念。物理的集中可以减小管理成本,提高性能。但是我们更应该关注的是数据在逻辑上的集中,即数据的整合及一致性处理。而物理上是集中式的还是分布式的都是可以接受的,需要根据具体情况来定。

如果只是物理上进行了集中,而没有进行数据的整合,就好比买了一个大箱子,把所有的杂物放入其中,仍是乱糟糟的一堆垃圾。这时就会出现下面这些情况:

1.从相同的数据源重复抽取数据。

2.对于同一个信息出现不同的命名规范和业务规则。

3.重复的分析产生了不一致的分析结果。

而数据仓库总线架构就是进行数据整合的一个很好的选择。

从企业已有的环境转换到总线架构需要企业高层的支持,提供各种资源。

下面列出了从企业已有环境迁移到总线架构需要完成的工作。实际工作中,每个企业的环境都不一样,每步还需要相应的修改。

1.找出企业已经存在的数据仓库和数据集市,标明其中重复的部分。

2.找出企业未能满足业务需求的部分。

3.为标识权威的一致性维度建立一个工作组,需要高层支持。

4.根据现有的数据设计一致性维度。

5.在主一致性维度(master conformed dimension)上得到企业内的一致认可。

6.制定一个计划来维护一致性维度,包括增加新的一致性维度。

使用总线架构和一致性维度可以使我们的数据仓库是整合的、一致的、易理解的,并且性能很好。我们也可以很容易的添加新的数据集市与已有的数据整合在一起。可以保证数据在逻辑上的集中。

posted on 2010-08-05 13:51  李梦蛟  阅读(257)  评论(0编辑  收藏  举报