猪莫慌

ETL详解

一:ETL概括

  ETL是将业务系统的数据经过抽取、清洗、转换之后加载到数据仓库的过程,目的是将企业中分散、凌乱、标准不统一的数据整合到一起,为企业决策提供分析依据。

  ETL是BI项目重要的一个环节,通常情况下,在BI项目中ETL会花掉整个项目至少1/3时间,ETL设计的好坏直接关系BI项目的成败。

  ETL设计分为三部分:数据抽取、数据清洗转换、数据加载。

二:ETL实现方法

  1:借助ETL工具,如owb、informatic和kettle

  2:sql方式实现

  3:ETL工具和sql结合

三:数据抽取

  从各个不同的数据源抽取到ODS中。

  完成步骤:

  1:需求调研,搞清数据从哪些业务系统来,运行什么DBMS,是否需要手工数据,是否为非结构化数据。

  2:数据源与DW相同的数据库系统采用直连数据库方式进行抽取。

  3:数据源与DW不同的数据库系统采用文件转换方式或程序接口方式实现。

  4:数据源为文件类型时,可借助数据库工具将文件导入数据库。

  5:增量抽取||全量抽取

四:数据的清洗转换

  清洗:业务系统--->ODS做数据清洗,将脏数据和不完整数据过滤掉。  

      不符合要求数据包括:

      1:不完整数据

         2:错误数据

      3:重复数据

  转换:ODS--->DW做数据转换,进行业务规则的计算和聚合。

    转换的目标包括:

      1:不一致数据转换

      2:数据粒度转换

      3:商务规则计算

 

    

posted on 2019-08-13 16:05  猪莫慌  阅读(473)  评论(0编辑  收藏  举报

导航