摘要:
Infromatica PowerCenter介绍:1993年在美国加利福尼亚州成立,一年后在美国纳斯达克上市。informatica的特点:1.强大的多种数据类型访问能力2.企业级的数据集成解决方案3.强大的ETL功能Infromatica PowerCenter工具概况主要有一下几部分组成:1.Administration Console(管理控制台):主要负责管理Informatica服务、目录、域、节点、日志、账户等信息,基于B/S结构2.PowerCenter:用来进行设计ETL开发的工具,包括数据源、目标数据库、映射方法等的定义及使用3.Repository Manager:主要用 阅读全文
摘要:
ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,是构建数据仓库最重要的一步。1.抽取抽取时元数据进入到数据仓库的第一步。因为每个业务系统数据的质量不相同,所以需要对每个数据源建立不同的抽取程序。抽取的主要功能:提供数据匹配器的功能:这样使得程序可以与多种业务数据源相连接。提供标准化的功能:抽取最重要的一个功能就是对数据类型的标准化,将业务数据和数据仓库中的数据类型统一。提供批处理的服务:提供过滤的功能:2.清洗清洗是源数据进入到数据仓库的第二步。目的是保证源数据的数据质量符合数据仓库的要求,同时保证数据的一致性。清洗的主要功能:数据修正:使用固定算法或者 阅读全文
摘要:
为了达到数据仓库项目质量管理的要求,可以选择合适的模型建立数据仓库项目的生命周期1.使用瀑布模型 条件:从用户的角度来说,他们已经完全理解项目的需求,并且有现成的文档作为支持,同时用户希望用新系统替代旧的系统,并且项目工期相对紧迫。 从项目开发人员的角度来说,项目分工明确,资源充分,系统可以被划分成相对独立的模块,比较适合工作任务的分配。2.使用原型模型 用户对项目需求的理解比较模糊。数据仓库粒度的划分数据仓库粒度的划分是设计的重要内容,因为它直接影响了数据仓库查询的效率、查询的灵活性和数据仓库数据量的大小。如果数据仓库的粒度级别越低,则它的细节程度越高;反之,则相反。在数据仓库设计过过... 阅读全文