KDT#36 关于集中式的考虑
在数据仓库领域,集中式(Centralized)是个讨论的很多的概念。物理的集中可以减小管理成本,提高性能。但是我们更应该关注的是数据在逻辑上的集中,即数据的整合及一致性处理。而物理上是集中式的还是分布式的都是可以接受的,需要根据具体情况来定。
如果只是物理上进行了集中,而没有进行数据的整合,就好比买了一个大箱子,把所有的杂物放入其中,仍是乱糟糟的一堆垃圾。这时就会出现下面这些情况:
1.从相同的数据源重复抽取数据。
2.对于同一个信息出现不同的命名规范和业务规则。
3.重复的分析产生了不一致的分析结果。
而数据仓库总线架构就是进行数据整合的一个很好的选择。
从企业已有的环境转换到总线架构需要企业高层的支持,提供各种资源。
下面列出了从企业已有环境迁移到总线架构需要完成的工作。实际工作中,每个企业的环境都不一样,每步还需要相应的修改。
1.找出企业已经存在的数据仓库和数据集市,标明其中重复的部分。
2.找出企业未能满足业务需求的部分。
3.为标识权威的一致性维度建立一个工作组,需要高层支持。
4.根据现有的数据设计一致性维度。
5.在主一致性维度(master conformed dimension)上得到企业内的一致认可。
6.制定一个计划来维护一致性维度,包括增加新的一致性维度。
使用总线架构和一致性维度可以使我们的数据仓库是整合的、一致的、易理解的,并且性能很好。我们也可以很容易的添加新的数据集市与已有的数据整合在一起。可以保证数据在逻辑上的集中。