随着计算机的发展,信息系统中数据孤岛的增多,如何把这些数据利用起来,是每个企业所面临的问题。ETL是指数据抽取(Extract)、数据转换(Transform )以及数据加载(Loading),在数据仓库的应用中起着关键作用。ETL把这些数据孤岛利用起来,形成数据仓库, 是构建数据仓库中极其重要的一环。缓慢变化维是指ETL中对数据仓库维度表的更新的技术。研究数据仓库的维度更新速度,把维度表分为:稳定的维度,渐变的维度,快变的维度。数据仓库的更新不是简单的覆盖历史数据。为了能保存数据仓库的历史数据,许多数据仓库设计者提出了多种数据仓库更新策略。在实际的商务应用中,使用得最多的有三种,即:第一,二,三类缓慢变化维。

缓慢变化维需要ETL程序和数据仓库的同时支持。本文从ETLOLAP(连接分析处理)开始,详细介绍第二类缓慢变化维的设计过程。其中涉及到维度表和数据仓库源表的对应关系,代理键和业务键之间的区别及联系,缓慢变化维的列的不同属性之间的更新策略和先后步骤,以及父子维度,推断成员对缓慢变化维的影响。本文还对ETL中第二类缓慢变化维的更新数据仓库的过程作了详细的分析,对其实现算法作了仔细的讨论,并在.Net Framework 2.0上编程实现其处理过程,并作了相关应用的测试。最后对缓慢变化维在实际的应用中面临的问题做了总结。

关键词ETL, OLAP, 维度,缓慢变化维
ps:其中关于ETL,OLAP简介部分是摘抄字其他文章,感谢其原作者。
附件:ETL中第二类缓慢变化维的研究及应用.rar
posted on 2006-06-16 17:28  以天  阅读(960)  评论(1编辑  收藏  举报