数据清洗学习

根据系统的内存使用量,CPU使用量,以及进程数分析问题


ETL与ELT

ETL多数依靠工具,利用工具进行数据清洗,标准化后装载

ELT是先将数据装载入数据库,再利用数据库技术清洗数据

使用ETL还是ELT和你本身数据库的特性有关的,有些种类数据库(线性增长的数据库||并行处理),数据的逻辑处理在库内的速度要快,而有些库是将复杂的逻辑放在库外更合适。

Teradata数据库采用的就是典型的ELT,因为数据库本身就是并行的,先将数据快速导入到数据库,然后利用数据库节点的并行运算来快速处理逻辑。

这两种方式各有其优点,ETL方式优势在于“(源)多->(目标)少”的转换过程,这种情况下ELT方式需要将原始数据先加载到目标数据仓库,这个过程将耗费较多的时间,为了提高效率,取决于ETL流程设计者能否将使数据量变小的过滤操作前移到抽取(E)操作中;俗话说靠着大树好乘凉,ELT的优势主要来自所依靠的数据仓库的数据库功能,从而可以很方便的解决ETL中的大数据量问题,以及利用数据库统计功能完成统计操作。

  因此,对于中小型ETL工具的实现,借助数据库的ELT方式应该是一种比较合适的方式。ELT模式的ETL工具的效率便主要取决于前两个步骤(EL)的效率,为了提高效率,可以从三个方面考虑:1)是提高加载(L)的效率,读入数据,逐行写入,是最通用的方式,但其效率较低;如果能使用批量导入导出的方式,可大大提高效率,但是对于跨数据库的批量导入导出,存在通用性的问题;我曾经想利用csv文件作为中间文件来实现批量导入导出,但并不是每种数据库都可以轻松实现对csv文件的导入导出。2)是减少抽取(E)出来的数据,也即是前文提到的将过滤操作前移到抽取过程中,简单的作法是抽取操作提供一个抽取条件,来减少抽取出来的数据;更理想的做法是能简单的分析ETL的流程,智能地将流程中的过滤条件解释出来,并前移到抽取操作中。3)是增量抽取,一个数据仓库,除了建造过程需要一次全量处理外,其余的维护过程应该都是使用增量处理,增量处理第一步便是增量抽取。


清洗策略取决于数据库特性

PDM以软件为基础,是一门管理所有与产品相关的信息(包括电子文档、数字化文件、数据库记录等)和所有与产品相关的过程(包括工作流程和更改流程)的技术。它提供产品全生命周期的信息管理,并可在企业范围内为产品设计和制造建立一个并行化的协作环境。PDM的基本原理是,在逻辑上将各个CAX信息化孤岛集成起来,利用计算机系统控制整个产品的开发设计过程,通过逐步建立虚拟的产品模型,最终形成完整的产品描述、生产过程描述以及生产过程控制数据。技术信息系统和管理信息系统的有机集成,构成了支持整个产品形成过程的信息系统,同时也建立了CIMS的技术基础。通过建立虚拟的产品模型,PDM系统可以有效、实时、完整的控制从产品规划到产品报废处理的整个产品生命周期中的各种复杂的数字化信息。

元数据
元数据被定义为:描述数据及其环境的数据,在数据仓库领域中,元数据按用途分成技术元数据和业务元数据。首先,元数据能提供基于用户的信息,如记录数据项的业务描述信息的元数据能帮助用户使用数据。其次,元数据能支持系统对数据的管理和维护,如关于数据项存储方法的元数据能支持系统以最有效的方式方式访问数据。具体来说,在数据仓库系统中,元数据机制主要支持一下五类系统管理功能
1.描述哪些数据在数据仓库中。
2.定义要进入数据仓库中的数据和从数据仓库中产生的数据。
3.记录根据业务事件发生而随之进行的数据抽取工作时间安排。
4.记录并检测系统数据一致性的要求和执行情况。
5.衡量数据质量。


MIB(管理信息库)
网络管理数据的标准,在这个标准里规定了网络代理设备必须保存的数据项目,数据类型,以及允许在每个数据项目中的操作。通过对这些数据项目的存取访问,就可以得到该网关的所有统计内容。再通过对多个网关统计内容的综合分析即可实现基本的网络管理。

语义层(Semantic Layer)
通过对数据库里的有关数据项定义,把数据库中的数据定义成有明确的业务含义的名称。业务人员所面对的不再是表、字段和它们之间负责的关联、计算关系,而是他所熟悉的业务术语和指标名称。

标准MIB与私有MIB导向语义层映射

语义层通常应用于报表软件中,作用是把数据库中的对象进行包装,产生高度面向业务的数据抽取模型。经过这种处理后,数据处理可以再业务层面上进行,在生成报表时,处理逻辑清晰

数据库同步
语义层数据库的维护包括数据表登记、数据表维护、数据备份、数据恢复四个部分,其中数据表维护功能不仅能将语义层中修改后的数据信息同步至数据库,而且还可以根据语义层定义的数据表在数据库中创建对应的物理表。

DataStage
DataStage是由IBM公司开发的,是一套专门对多种操作数据源的数据抽取、转换和维护过程进行简化和自动化,并将其输入数据集市或数据仓库目标数据库的集成工具。

 

业务系统
数据加载
进入清洗流程 operational image
清洗后进入跨功能模型 cross functional model
将数据装载入数据集市(logic Mart),数据集市包括,内部外部集市,并进行语义层处理 (Semantic Layer)
由专家选用指标模型建模
获取结果


源数据层
SQL Server 2000 数据库
snapshot
sybase  数据库
snapshot
informix 关系数据库管理系统
镜像
SAP系统  企业级管理系统ERP,数据来源之一

数据导入层
调度控制/日志
etl过程  数据清洗
数据质量检查 清洗后检查质量
出错处理回溯 循环清洗检查
//从源数据层的数据抽取采用DataStage


数据服务层
EDW Enterprise Data Warehouse 数据仓库
PDM 产品数据管理技术
Meta Data 元数据

中间服务层

 

访问控制层
Portal(访问控制/统一认证)

业务用户层

IT用户层

posted @ 2013-09-05 15:27  传说中那只猫  阅读(688)  评论(0编辑  收藏  举报