浅析数据世系
数据仓库中有一个概念叫做Data Lineage,中文一般翻译为“数据世系”。数据世系描述的是从源系统抽取数据开始,经过数据转换到最终的数据加载的整个过程中各种信息。
数据世系信息需要留下详细的文档记载。数据世系包括源系统的数据库中数据定义以及该数据在数据仓库中的最终位置等信息。
数据世系是数据仓库的元数据中最重要的一部分。这部分元数据的产生位置是在ETL的处理过程中。
如果在ETL的处理过程中使用的ETL工具的话,ETL工具可以记录下元数据的一部分,但是这部分一般都是数据的属性描述,而不是完全的数据世系。换一句说,完全依靠ETL工具来维护元数据是不够的。