ETL工具箱3 抽取(3.2不同平台抽取数据)

数据不同形式,可以通过ODBC连接不同的数据源,ODBC灵活性是以性能为代价的。对于那些通过ODBC处理数据的ETL过程,在ETL系统和后台数据库之间增加了两层:ODBC管理器,ODBC驱动程序

 

 

主机数据源:有特定的结构加强外围设备通道来处理输入输出,CPU可以专注处理数据,比如计算和均衡。

如果源数据在主机系统上,则ETL工具具有从EBCDIC到ASCII的数据转换功能是很重要,如果可能,最好是在主机上进行转换以避免发生任何教小数值的和压缩数字的损失,如果通过磁带或者其他的介质获取,则这种转换必须由非主机环境中的ETL工具来实现。(具体不详细说了,这块接触的不多)

 

平面文件:使用平面文件的原因 1传输源数据,数据源在外部系统时候,以平面文件FTP到数据集结区很正常。  2 工作表集结表:使用平面文件是因为直接从文件系统读写I/O的速度远远快于插入和查询DBMS系统。3块加载准备(这个不大懂。。。)

平面文件分类:固定长度的;分隔符分割的

 

处理固定长度的平面文件: 有时候不能从原始系统得到数据仓库需要的物理数据,那么需要有一个支持源系统的程序员创建的平面文件。通常这些文件是固定长度的。处理固定长度平面文件需要布局文件来准确描述文件中的字段,固定长度布局文件应包含:文件名称,字段开始位置,字段长度,字段数据类型,有时候位置也需要提供。

处理固定长度平面文件的时候,尝试检验文件中数据的位置是否正确。一种快读检验位置有效性的办法是测试任意日期或时间字段以确认其是一个有效的日期,如果产生了移位,日期字段很可能包含希腊字母或不合逻辑的数字。其他具有非常特定含义的字段也可以用同样的方法来测试。XML提供更加具体的有效性检验功能,如果数据校验或者一致性是一个问题,可以尝试说服数据提供者以XML格式提交数据。文件可以是.txt或者随意的其他

 

处理有分隔符的平面文件

平面文件用分隔符分割文件中的数据字段。分隔符代替了使用位置来说明字段的开始和结束位置。最常用逗号。逗号分隔符文件常常以.csv作为文件扩展名字。分隔符文件第一行包含列名称。

和基于位置的平面文件一样,分隔符文件也没有隐含的校验方法,需要ETL小组进行明确的校验测试并将其加入测试中。

 

XML数据源

XML(扩展标志语言)正在称为共享数据的标准。XML包含两个重要的元素:他的元数据和数据本身。XML元数据可以用多种方式提供。来源不同的时候必须做好处理不同的字符集的准备。XML是个特殊的实体,存储据,也是个语言。XML文档中的标签是为什么XML如此功能强大的原因。XML文件中,标签包含元数据占xml文件大小的百分之九十。大小就变得数据存储的十倍。数据仓库的主要目标是保持数据尽可能的收缩以使得树立的尽可能的快,XML背离这个标准。处理XML文档必须提前了解XML文档的结构。DTD(文档类型定义),它包含基本数据,元素结构,混合的内容,是否可为空,对应关系,允许的值。XML结构,他包含:出现在XML文档中的元素,属性,子元素的数量和顺序,元素和属性的数据类型,默认值,固定值,添加的可扩展性,支持命名空间。

 

Web日志数据源  

每个网站之下有日志--网络日志--记录每个对象从WEB服务器上上传或者下载的服务。分析网络日志的活动并存储结果在数据集市来分析客户行为被称之为点击流数据仓库。W3C通用和扩展格式。一般包括:日期,时间,c-ip,服务名,s-ip,cs-method,等。web日志由各种不同内容的标准字段组成。

ERP系统数据源

ERP(企业资源计划)由无数的表和属性构成,以及通常ERP实时的复杂度,因此把这些系统和任何其他交易源系统一样进行利用是错误的。如果是已经存在的ERP,最好是获得对这个特定ERP系统的底层的数据库结构非常了解且以及对应用的业务对象具有丰富经验的人的帮助。很多厂商提供ERP适配器来连接主流的ERP系统。SAP特殊设计了一个ERP自身的决策支持的扩展,叫做业务信息仓库(SAP BW)

posted @ 2012-09-21 00:20  honkcal  阅读(1162)  评论(0编辑  收藏  举报