informatica组件

informatica组件

Informatica常用组件的使用方法

https://www.cnblogs.com/wan-ge1212/

一、F(X)表达式组件:

 

主要用于行级表达式的计算;如对某个字段进行四则运算;

对某些字符串进行计算等。 Oracle简单查询差不多。

SELECT   sal Expression Transformatiion 表达式组件;

功能描述:它是做这种字段级的计算,加减乘除等等都可以在这里面来做, 所以会用的比较多;

在端口中I表示:输入(input);

O表示:输出(output);

v表示:变量(variable)(临时保存一些数值);

 

 

二、SQ: Source Qualifier

 

 

  

功能描述:Source Qualifier组件在说有的场景中会被用到,它主要用于连接数据源,将数据源的数据类型转换为PowerCenter的数据类型。

对源进行抽取的一个组件;他是和源绑定在一起的;

相当于inforamtica做ETL的第一个动作,E的动作。这个组件基本上是不能缺少的;

Source Qualifier 能做哪些功能呢?

1、一般不会手动就写一些脚本,可以手工的定义一些SQL的select脚本;

informatica对数据库来说他也是数据库的一个客户端,相当于inforamtica扔给他一个SQL脚本然后返回他想要的结果集;

所以inforamtica呢会产生一个SQL脚本,这个时候呢你可以手动去编辑他

4 条件: SQ :同构数据源 的。(来自于同一个数据库)

 

三、Filter组件

 

 

 

 

 

 

 

四、Normalizer组件:

 

   特点:

 

 

 将列表转换为行表

将列表转换为行表 GK_SAL_AOMOUNT 是一个序列号,从1,2,3,4,5,6….一直增长;

GCID_SAL_AMOUNT为1、2、、3、4重复进行。

                                                                     EMPNO      SAL_AMOUNT     GK_SAL_AOMOUNT    GCID_SAL_AMOUNT

                                                                          1                     1000                             1                                    1                   

                                                                          1                     100                               2                                    2                   

                                                                          1                      10                                3                                    3                   

                                                                          1                       1                                 4                                    4                   

                                                                          2                       10000                         5                                    1                   

                                                                          2                       1000                           6                                    2                   

                                                                          2                        100                            7                                    3                   

                                                                          2                         10                             8                                    4                    

 

五、Router组件:

 

 

 

 路由组件  实现 数据的分发:

 

六、Aggregator 汇总组件:

 

 

 

 分组聚合 按哪几个字段进行 分组   对哪几个字段进行聚合运算; 统计出 每个 部门的 工资之和

作用:执行分组聚合运算 Aggregator Transformation;

Aggregator 这个组件呢跟数据库里面的 写SUM,group by 语句类似;

功能就是 分组数据做一些汇总函数;排好序在汇总 他的性能是最高的;

你可以理解成 相当于sum 什么 什么,group by 哪些字段,但是他的操作是在 inforamtica 内存中操作的,而不是在数据库中操作,已经把数据读过来了;

 

七、Lookup组件:

 

   --  连接

 1、有连接未连接之分;

 2、Lookup表可以是数据库表,也可以是文本文件;

 

 

 

 

    --  未连接

 

 

 

 

 查找组件;

有两种类型 一种是连接的 一种非连接的 

非连接的 Lookup相当于 一个 函数。

连接的  有一点对源表 内容 进行 丰富。

有一个 动作 先把 一张 表 放进了Lookup里面去了;

作为 咱们的资源池: Baidu 关键字 (后台 有 这种相关的东西) 数据流 规则:一种是 分叉 一种 是 不可以 分叉

Lookup是被动组件:进去一条记录 他 必须 出来一条  如果查找不到 呢?他会 给咱们 补空。

Lookup是比较消耗ETL服务器资源的组件之一,因此很多时候开发人员都会试图优化这个组件的性能,如减少Lookup的次数。

基于这个考虑,PowerCenter提供了Unconnected Lookup,确保只有必须的数据采执行Lookup操作。

 

八、Rank 作用:

 

排序记录,只输出最顶层或最低层的n个记录

用法:创建好Rank(下简称RNK)后,将需要的用的字段从transformation拖拽到RNK,双击RNK,对RNK的属性进行设置。

在Ports tab中 有一个名为‘R’的列,选择你要排序的列。你还可以选择你想分组的列。

在Properties tab中Top/Bottom属性,Top表示选择顶层的 记录,Bottom表示选择底层的记录;

Number Of Ranks属性值是整数,表示要选择的记录条数。

假设你在‘R’列中选择了名为’ Price’的列,而且Group By选择了‘Name’列,Top/Bottom属性选择的是‘Top’, Number Of Ranks属性值是2,

那么将抽取过程是 这样的:以name分组取出每组中 Price最大的2列记录。

命名方式:RNK_Name

 

九、Joiner组件:

 

  特点:

 

 

 

M的选择:一般会先 码表 数据量 比较小的 数据 为M  M放进内存里。

Joiner type: Joiner:可以实现 异构数据源的合并。

Emp  CSV  Dept  数据库里 Joiner  有局限性:每次 合并的时候  只能合并两张表。N张表  N-1joiner组件 进行合并。

 

十、文本文件

 

    特点:

 

 

 

 十一、XML组件:

 

  特点:

 

 十二、Expression组件:

 

 

  

 

 十三、Sorter组件:

 

 

 

 

 十四、Union组件:

 

 

 

 

 十五、调用存过组件:

 

 

 

 

 

 

 

 十六、序号组件:

 

 

 

  2、设置开始值,每次递增的值;

 3、设置循环使用序列号,当序列号当前值到达最大值时, 重置序列号为初始值;

 

 

十七、Mapplet映射组件:

 

 

 

 

 

十八、Update Strategy组件

 

 

 

 

 -- -- -- -- -- -- -- -- --

 

1、变量的值在运行过程会发生变化;参数是一个常量值, 在运行过程中不能修改的值。

 

 功能:在表达式中引用变量和参数

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

相关链接:https://blog.csdn.net/yongjian1092/article/details/52588434

其他连接:https://www.cnblogs.com/wan-ge1212/

 

posted @ 2021-12-17 11:02  倾晴雨轩  阅读(1058)  评论(0编辑  收藏  举报