ETL详解
一:ETL概括
ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将企业中分散、凌乱、标准不统一的数据整合到一起,为企业决策提供分析依据。
ETL是BI项目重要的一个环节,通常情况下,在BI项目中ETL会花掉整个项目至少1/3时间,ETL设计的好坏直接关系BI项目的成败。
ETL设计分为三部分:数据抽取、数据清洗转换、数据加载。
二:ETL实现方法
1:借助ETL工具,如owb、informatic和kettle
2:sql方式实现
3:ETL工具和sql结合
三:数据抽取
从各个不同的数据源抽取到ODS中。
完成步骤:
1:需求调研,搞清数据从哪些业务系统来,运行什么DBMS,是否需要手工数据,是否为非结构化数据。
2:数据源与DW相同的数据库系统采用直连数据库方式进行抽取。
3:数据源与DW不同的数据库系统采用文件转换方式或程序接口方式实现。
4:数据源为文件类型时,可借助数据库工具将文件导入数据库。
5:增量抽取||全量抽取
四:数据的清洗转换
清洗:业务系统--->ODS做数据清洗,将脏数据和不完整数据过滤掉。
不符合要求数据包括:
1:不完整数据
2:错误数据
3:重复数据
转换:ODS--->DW做数据转换,进行业务规则的计算和聚合。
转换的目标包括:
1:不一致数据转换
2:数据粒度转换
3:商务规则计算