摘要: 根据模型的设计和源数据的情况,有四种数据ETL模式:完全刷新:数据仓库数据表中只包括最新的数据,每次加载均删除原有数据,然后完全加载最新的源数据。这种模式下,数据抽取程序抽取源数据中的所有记录,在加载前,将目标数据表清空,然后加载所有记录。为提高删除数据的速度,一般是采用Truncate清空数据表。如本系统中的入库当前信息表采用此种模式。镜像增量:源数据中的记录定期更新,但记录中包括记录时间字段,源数据中保存了数据历史的记录,ETL可以通过记录时间将增量数据从源数据抽取出来以附加的方式加载到数据仓库中,数据的历史记录也会被保留在数据仓库中。事件增量:每一个记录是一个新的事件,相互之间没有必然的 阅读全文
posted @ 2014-03-25 10:48 做一个GENTALMAN 阅读(384) 评论(0) 推荐(0) 编辑
摘要: 本文所提到的数据加载策略为OLTP系统作为源系统,并进行ETL数据加载到OLAP系统中所采用的一般数据加载策略。依循数据仓库的工作方式,原始资料由源数据库被抽取出来后,将在中间过程被写入到”Operational Data Store”(ODS),ODS是被设计用来存储中间数据和核查校验数据的。通过ODS,数据将被萃取、预先被计算及整理,而后被导入数据仓库作进一步的报表生成与分析。所以通常意义的ETL过程涵盖了两个方面的内容:1. 从源数据库到中间步骤的ODS; 2. 从ODS到最终的数据仓库。目标数据库存放数据的时间区间比源数据库长。例如源数据库存放的是3个月的交易生产数据,ODS存放了1年 阅读全文
posted @ 2014-03-25 10:40 做一个GENTALMAN 阅读(609) 评论(0) 推荐(0) 编辑