kettle从入门到精通 第四十三课 kettle 多对1表合并同步

1、上一节课我们学习了1对多表拆分数据同步,本节课我们一起学习多对1数据同步,也就是说多张表关联之后的结果集写入一张表。

我们平常在写java应用的时候多表关联一般有两种方式:

a、通过sql 语句的join 进行关联。

b、将多个表的数据集加载到内存中通过java代码进行关联。

同样在kettle中也可以通过如上两种方式进行实现。

2、下图通过sql 语句的join 进行关联,表输入【读取student&teacher】步骤读取join之后的数据集,表输出【写入student_third】步骤将数据写入表student_third。

 3、表输入【读取student&teacher】步骤实现逻辑如下:

  4、表输出【写入student_third】步骤实现逻辑如下:

 5、 下图通过将2个表的数据集加载到内存中进行关联,如下图所示:

a、表输入【读取student】步骤读取student数据,然后通过排序步骤【student排序】升序排序,当然这里的排序步骤也可以省略通过表输入中的sql的order by 方式实现。

b、表输入【读取teacher】步骤读取teacher数据,然后通过排序步骤【teacher排序】升序排序,当然这里的排序步骤也可以省略通过表输入中的sql的order by 方式实现。

c、排序之后的数据集通过步骤【记录集连接】进行join操作。

d、表输出【写入student_third】步骤将数据写入表student_third。

 

 6、表输入【读取student】步骤读取student数据实现逻辑如下图所示:

 

 7、表输入【读取teacher】步骤读取teacher数据实现逻辑如下图所示:

 

8、排序【student排序】步骤实现逻辑如下图所示:

 9、排序【teacher排序】步骤实现逻辑如下图所示:

 10、join【记录集链接】步骤实现逻辑如下图所示(通过student表中的teacher_serialno和teacher表中的serial_no字段进行关联),此处我选择的是left outer join 连接方式,具体的设置可以根据业务场景进行选择,如inner join 等:

 11、表输出【写入student_third】步骤实现逻辑如下:

 12、步骤【记录集连接】要求输入流事先排好序,如下图所示:

 

 

posted @ 2024-02-20 09:27  慕容尘轩  阅读(569)  评论(0编辑  收藏  举报