KDT#59 数据概况的作用
数据概况(Data Profiling)是大部分数据仓库的建立者都会忽略或误解的一部分内容。很多人会认为数据概况是ETL系统建立之后的数据不规则检验。
事实上,数据概况是对源数据内容的概况分析,这个分析应该在需求收集之后就开始。概况分析从小的方面来说包括计算数据量的大小、检验数据的基数关系等,从大的方面来说包括任何判断数据是否满足需求的方法。
数据概况的分析一般可以通过如下分析来完成。对于字段,主要分析它们数据定义和域定义,特别要注意有多少行记录包含空值,有多少行记录违反域约束等内容。对于表,主要分析表内字段间的关系和表间的主外键约束,特别是有多少可以做键的字段有重复值,外键约束有多少已经不起作用等内容。数据概况分析还可以用自定义的程序去检验复杂的业务逻辑是否满足。
数据概况分析应该在项目的开始后尽早完成,它会对设计和实现有很大的影响。在完成需求收集后就应该立即开始数据概况分析。
数据概况可以描述出项目需要的分析内容在源系统中是否能提供,它可以让数据仓库的实现人员清楚的知道他们在做些什么。通过数据概况,实现人员可以事先预期好数据质量问题,避免项目后期出现大的问题。