新随笔  :: 订阅 订阅  :: 管理

Kettle解决方案: 第五章 ETL相关知识

Posted on 2018-06-26 16:41  redcoatjk  阅读(325)  评论(0编辑  收藏  举报
早期, ETL知识作为BI系统的一部分来介绍. 后来在The Data Warehouse ETL Tooket一书中, 系统性的整理了ETL的相关内容, 形成了一篇"ETL里的34个子系统"的介绍, 总结了ETL项目面临的不同任务. 
安装类型分类其实主要分为:
1抽取  对应原文子系统1~3
2清洗更正 对应原文4~8
3发布  34个子系统有13个属于这个范畴
4管理  对应原文22~34

5.1 抽取

从不同数据源抽取数据.
访问数据源的政策性风险, 安全性和性能都是挑战.
对应子系统1,2,3 (数据剖析, 增量数据捕获, 抽取系统)

5.2 清洗更正

数据加载到目标数据仓库之前所做的必要的清洗和更正工作. 例如处理用户的性别, 用新的数据类型来存储管理.
对应子系统4 (数据清洗和质量处理系统)
子系统5(错误事件处理)
子系统6 (审计纬度)
子系统7 (排除重复记录系统)
子系统8 (数据一致性)

5.3 数据发布

保证正确的更新/新增数据到目标数据库.
对应
子系统9 (缓慢变更纬度处理)
子系统10 (代理键生成系统) :增加序列之类的.
子系统11 (层次维度构建) 比如时间纬度, 地理纬度等
子系统12 (特殊纬度生成系统) : 杂项纬度, 小纬度,自定义纬度等
子系统13 (事实表加载) 单独出来是为了签到三种不同类型的事实表:
事务粒度事实表, 周期快照事实表, 累积快照事实表
子系统 14 代理键管道
子系统 15 (多值维度桥接表生成系统)
子系统 16 迟到数据处理
子系统 17 (维度管理系统)
子系统 18 事实表管理系统
...等


5.4 管理ETL环境

主要是作业调度, 备份系统, 数据恢复,重启 版本控制.
生成/测试环境迁移, 并行/管道系统等.