2013年6月26日
摘要: 在实际过程中缓慢变化为是用到很多的。在数据库中维度的属性会随时间的变化而发生缓慢的变化。缓慢变化维是ETL对数据仓库维度表的更新技术。之后的小例子是在informatica中缓慢变化的操作。 在informactica中缓慢变化维使用向导的形式创建。找到mapping->wizards->slowly....之后进入向导:new mapping name 给mapping去个名字下面的三项:type 1为保留最近一次的变更;type 2为保留所有的历史;type 3为保留近两次的变更我选择了type2,保留所有的历史记录,下一步第三步是选择源数据表和目标表,这里我们还没目标表,先取 阅读全文
posted @ 2013-06-26 11:03 evencao 阅读(1284) 评论(0) 推荐(0) 编辑
2013年6月25日
摘要: 看了几天的Informatica ,关于infor的资料也比较少,主要的《商业智能深入浅出》,以及中国大数据论坛上的教学视频。在看了这些之后总感觉远远不够,但又缺乏资料,不知道如何去深入学习。workflow主要是对ETL的调度工作。主要是实际的操作Inforamtica 流程控制的组件。Decision:决策的组件,在里面可以写一个规则,形成一个决议 上图主要是一个Decision的时候,上面的规则就是这两个session的执行成果返回一个结果。 2.Workflow 变量:第一次跑完将值写入资料库中 这个写在这里,它不是一个组件。但在一下的组件会用到这个变量的定义。 在菜... 阅读全文
posted @ 2013-06-25 15:03 evencao 阅读(3527) 评论(0) 推荐(0) 编辑
2013年6月24日
摘要: 1.Router Transformation:在filter 组件中只能写一个过滤条件。而在Router中能写多个过滤条件。 对流入组件中的记录数据按照条件进行分发,类似JAVA语言中的Switch. 在分组的最后会有一个Default组,即所有组都不满足时就会进入default组。是缺省生成的。每条记录都回去验证每个组。router组件可以过滤出不符合标准的数据。例:首先拖入源数据时 ods_employee是之前小例子的目标表,在ETL过程中,数据的ETL不只一次,很多表都会是目标表和源数据表。 加入Router组件,在工具栏的router... 阅读全文
posted @ 2013-06-24 16:17 evencao 阅读(1686) 评论(0) 推荐(0) 编辑
摘要: 1.User shortcuts:shortcuts能实现快捷方式的复用。快捷方式可以根据源的变化而变化。和直接拖拽的拷贝不一 样,拷贝过来的是两个版本都需要维护。2.find object:Ctrl+F打开查找界面3.View object dependencies:查看对象的依赖型关系。可以右击对象的dependencies或者mapping菜单栏的dependencies来打开对下面的属性进行选择,需要显示那些对象的关系,确定,结果如图可以将结果打包成一个xml对象文件导出。或者保存为一个HTML报告。3.Compare objects and mappings.对比两个对象的源数据。在 阅读全文
posted @ 2013-06-24 14:31 evencao 阅读(723) 评论(0) 推荐(0) 编辑
摘要: Informatica主要的组件:Source Qualifier 从数据源读取数据Expression 行级转换,计算式Filter 数据过滤Sorter 数据排序Aggregator 聚合Joiner 异构数据关系连接Lookup 查询连接Update Strategy 对目标编辑insert, update,delete ,rejectRouter 条件分发Sequence Generator 序列号生成器Normalize 记录规范化Rank 对记录进行TopXUnion 数据合并Transaction Control 对装载数据按条件进行事务控制Stored Procedure 存储 阅读全文
posted @ 2013-06-24 11:29 evencao 阅读(1028) 评论(0) 推荐(0) 编辑
2013年6月21日
摘要: link path:查看某个字段的来源去处,非常有参考的价值。右击你想要看的字段,选择 select link path。这样就是有红色的箭头标明。当数据量大多时会很有用。Autolink by name and Position:如果在f(x)与目标表中的link段掉了,如果name后面有OUT 如图选择右击 autolinke 如果所示:name就是名字要相同,而position是位置相同,当name的时候选择more 这样就能将后缀为OUT的自动匹配,还可以做前缀关联等Shortcut from Normal View to Edit Port:对组件进行编辑,双击下组件进行编辑。如图编 阅读全文
posted @ 2013-06-21 14:51 evencao 阅读(950) 评论(0) 推荐(0) 编辑
摘要: 之前看了一段数据库的基础,感觉自己对数据库的基础挺薄弱的。以后再学习其他东西的时候也需要经常能学习回顾下数据库。这一个星期看了些数据仓库理论方面的东西,但是感觉映像不深,可能需要在之后实际使用过程中去真正的理解这些东西。关于informatica的资料很少。主要看的是 数据中国大讲坛上http://www.db365.net/forum.php分享的一个教学视频。接下来是一些做的例子。infor的一般使用流程启用服务引擎 server定义资料库 Repository数据抽取流程设计 PowerCenter Designer工作流管理 workFlow Manager监视器... 阅读全文
posted @ 2013-06-21 11:04 evencao 阅读(3717) 评论(1) 推荐(0) 编辑
2013年6月17日
摘要: Infromatica PowerCenter介绍:1993年在美国加利福尼亚州成立,一年后在美国纳斯达克上市。informatica的特点:1.强大的多种数据类型访问能力2.企业级的数据集成解决方案3.强大的ETL功能Infromatica PowerCenter工具概况主要有一下几部分组成:1.Administration Console(管理控制台):主要负责管理Informatica服务、目录、域、节点、日志、账户等信息,基于B/S结构2.PowerCenter:用来进行设计ETL开发的工具,包括数据源、目标数据库、映射方法等的定义及使用3.Repository Manager:主要用 阅读全文
posted @ 2013-06-17 19:39 evencao 阅读(1274) 评论(0) 推荐(0) 编辑
摘要: ETL是数据抽取(Extract)、转换(Transform)、加载(Load)的简写,是构建数据仓库最重要的一步。1.抽取抽取时元数据进入到数据仓库的第一步。因为每个业务系统数据的质量不相同,所以需要对每个数据源建立不同的抽取程序。抽取的主要功能:提供数据匹配器的功能:这样使得程序可以与多种业务数据源相连接。提供标准化的功能:抽取最重要的一个功能就是对数据类型的标准化,将业务数据和数据仓库中的数据类型统一。提供批处理的服务:提供过滤的功能:2.清洗清洗是源数据进入到数据仓库的第二步。目的是保证源数据的数据质量符合数据仓库的要求,同时保证数据的一致性。清洗的主要功能:数据修正:使用固定算法或者 阅读全文
posted @ 2013-06-17 16:10 evencao 阅读(1223) 评论(0) 推荐(0) 编辑
摘要: 为了达到数据仓库项目质量管理的要求,可以选择合适的模型建立数据仓库项目的生命周期1.使用瀑布模型 条件:从用户的角度来说,他们已经完全理解项目的需求,并且有现成的文档作为支持,同时用户希望用新系统替代旧的系统,并且项目工期相对紧迫。 从项目开发人员的角度来说,项目分工明确,资源充分,系统可以被划分成相对独立的模块,比较适合工作任务的分配。2.使用原型模型 用户对项目需求的理解比较模糊。数据仓库粒度的划分数据仓库粒度的划分是设计的重要内容,因为它直接影响了数据仓库查询的效率、查询的灵活性和数据仓库数据量的大小。如果数据仓库的粒度级别越低,则它的细节程度越高;反之,则相反。在数据仓库设计过过... 阅读全文
posted @ 2013-06-17 11:13 evencao 阅读(1253) 评论(0) 推荐(0) 编辑