浅析ETL过程的四步

What are the four basic Data Flow steps of an ETL process?

在ETL过程中四个基本的过程分别是什么？

答：

Kimball数据仓库构建方法中，ETL的过程和传统的实现方法有一些不同，主要分为四个阶段，分别是抽取（extract）、清洗（clean）、一致性处理（comform）和交付（delivery），简称为ECCD。

1．抽取阶段的主要任务是：

读取源系统的数据模型。

连接并访问源系统的数据。

变化数据捕获。

抽取数据到数据准备区。

2．清洗阶段的主要任务是：

清洗并增补列的属性。

清洗并增补数据结构。

清洗并增补数据规则。

增补复杂的业务规则。

建立元数据库描述数据质量。

将清洗后的数据保存到数据准备区。

3．一致性处理阶段的主要任务是：

一致性处理业务标签，即维度表中的描述属性。

一致性处理业务度量及性能指标，通常是事实表中的事实。

去除重复数据。

国际化处理。

将一致性处理后的数据保存到数据准备区。

4．交付阶段的主要任务是：

加载星型的和经过雪花处理的维度表数据。

产生日期维度。

加载退化维度。

加载子维度。

加载1、2、3型的缓慢变化维度。

处理迟到的维度和迟到的事实。

加载多值维度。

加载有复杂层级结构的维度。

加载文本事实到维度表。

处理事实表的代理键。

加载三个基本类型的事实表数据。

加载和更新聚集。

将处理好的数据加载到数据仓库。

从这个任务列表中可以看出，ETL的过程和数据仓库建模的过程结合的非常紧密。换句话说，ETL系统的设计应该和目标表的设计同时开始。通常来说，数据仓库架构师和ETL系统设计师是同一个人。

posted on 2010-08-10 16:10 李梦蛟阅读(1915) 评论(0) 编辑收藏举报

刷新页面返回顶部

专注于中国的商业智能