kettle从入门到精通 第四十三课 kettle 多对1表合并同步
1、上一节课我们学习了1对多表拆分数据同步,本节课我们一起学习多对1数据同步,也就是说多张表关联之后的结果集写入一张表。
我们平常在写java应用的时候多表关联一般有两种方式:
a、通过sql 语句的join 进行关联。
b、将多个表的数据集加载到内存中通过java代码进行关联。
同样在kettle中也可以通过如上两种方式进行实现。
2、下图通过sql 语句的join 进行关联,表输入【读取student&teacher】步骤读取join之后的数据集,表输出【写入student_third】步骤将数据写入表student_third。
3、表输入【读取student&teacher】步骤实现逻辑如下:
4、表输出【写入student_third】步骤实现逻辑如下:
5、 下图通过将2个表的数据集加载到内存中进行关联,如下图所示:
a、表输入【读取student】步骤读取student数据,然后通过排序步骤【student排序】升序排序,当然这里的排序步骤也可以省略通过表输入中的sql的order by 方式实现。
b、表输入【读取teacher】步骤读取teacher数据,然后通过排序步骤【teacher排序】升序排序,当然这里的排序步骤也可以省略通过表输入中的sql的order by 方式实现。
c、排序之后的数据集通过步骤【记录集连接】进行join操作。
d、表输出【写入student_third】步骤将数据写入表student_third。
6、表输入【读取student】步骤读取student数据实现逻辑如下图所示:
7、表输入【读取teacher】步骤读取teacher数据实现逻辑如下图所示:
8、排序【student排序】步骤实现逻辑如下图所示:
9、排序【teacher排序】步骤实现逻辑如下图所示:
10、join【记录集链接】步骤实现逻辑如下图所示(通过student表中的teacher_serialno和teacher表中的serial_no字段进行关联),此处我选择的是left outer join 连接方式,具体的设置可以根据业务场景进行选择,如inner join 等:
11、表输出【写入student_third】步骤实现逻辑如下:
12、步骤【记录集连接】要求输入流事先排好序,如下图所示: