Enhanced ETL 数据实时交换与共享解决方案
前言
随企业内部的信息业务系统种类不断增长,新的应用也不断出现。如基于各种已有的应用系统及其数据开发的数据仓库、经营分析、CRM客户关系等应用,已经成为企业信息竞争力的关键。各种应用的数据存在于不同的应用系统孤岛中,能及时进行信息交换和共享是信息使用价值所在。传统ETL是通过Sql接口从生产数据库抽取、或由生产数据库应用开发商根据ETL的要求定期生成接口文件,其弊端是:1)ETL不能实时,一般1天一次;2)无法识别增量数据,抽取的垃圾多、效率低、消耗资源、影响生产系统。
Enhanced ETL系统基本定位和技术体系
Enhanced ETL提供增量数据实时抽取、转换、实时增量订制文件接口、直接装载等功能,实现了下列关键技术的突破:
- Oracle数据库的实时增量跟踪技术:解决实时增量抽取问题。
- 数据存储和增量变化通知技术:根据变化跟踪记录中记录所有发生过变化的记录,为传统ETL工具提供所需要的增量数据及其通知接口,支持传统ETL实现增量数据的实时抽取。
- 支持一系列的实时数据转换和装载。
Enhanced ETL的技术特点
Enhanced ETL是实时或准实时的ETL解决方案,支持以低干扰、高灵活性的数据抽取和复制方式、转换可定制方式,实现数据集中分发,即实现了广域网、异构、多平台环境之下的数据实时交换。
- Enhanced ETL支持下列的实时转换和直接装载:
1)支持源端和目标端用户名不同的转换;
2)源端和目标端表名不同的转换;
3)源端和目标端字段名不同的转换;
4)支持对一个表的字段增加,删除,修该源字段类型;
5)对NUMBER类型数据作的+, -, *, /的转换。支持给一个列设置默认值,当该列为空时自动替换为设置的默认值;
6)行过滤:条件可以为一个条件表示式:例如 (Col1 + 3) > col2 AND col3 IS NOT NULL。
- Enhanced ETL软件可帮助第三方ETL工具实现实时或准实时、增强的数据抽取方案
1) 解决目前需要应用厂商提供接口文件的复杂程度,以及需要每天对update的记录进行全表抽取避免每天的全量数据处理所带来的问题;
2) 提供增量识别机制:使得第三方ETL简单容易识别增量数据;该工具利用对生产系统ORACLE redo log的跟踪机制,来对生产系统的数据进行变化跟 踪,然后将跟踪到的变化数据传输到中间数据库上,在中间数据上对数据进行整合、过滤和判断,自动生成和ETL的接口数据;可以配置和设定间隔,支持第三方ETL增量抽取间隔到每几秒钟、几分钟、10分钟的生成一个接口文件;
3) 支持第三方ETL也可以从镜像库中获取所有需要的其他数据(例如首次数据抽取,或者全量数据抽取);
4) 支持提供数据更多的价值信息:如增量变化数据的Before/After值等变化时间、变化的日志信息,以支持更多类型的数据分析;
- Enhanced ETL软件可结合转换和订制增量文件接口落地功能,支持传统ETL更加高效、支持跨网络、跨系统之间的数据实时交换。
Enhanced ETL支持的环境
数据库版本: |
Oracle 8i,9i,10g,11g |
异构硬件平台: |
Sun, HP, IBM, x86 |
异构操作系统: |
Solaris, AIX, HP-UX, Linux, windows |
存储系统: |
EMC,IBM,HDS、HP、SUN及其它通用的SCSI/FC存储系统 |
功能特点
- 跨平台、实时、低干扰地抽取转换装载
- 数据首次同步与实时增量一体化进行
- 更多数据价值信息,如数据时间识别信息
- 支持第三方ETL增量识别、数据实时提取
- 灵活架构构建数据共享、数据交换平台
性能效果
- 实时增量资源占用可控,约5%左右
- 实现数分钟提交增量变化信息和数据
- 降低ETL抽取对生产系统的性能影响
- 支持大型数据库的性能要求