Kettle - 核心概念
可视化编程
kettle 可以被归类为可视化编程语言(
Visula Programming Languages
,VPL),因为 Kettle可以使用图形化的方式定义复杂的ETL程序和工作流。可视化编程一直是 Kettle 里的核心概念,它可以让你快速构建复杂的ETL作业和减低维护工作量。它通过隐藏很多技术细节,使IT领域更贴近于商务领域。
kettle里的代码就是转换和作业。
转换
转换(
transformation
)负责数据的输入、转换、校验和输出等工作。Kettle中使用转换完成数据ETL全部工作。转换由多个步骤(Step)组成,如文本文件输入,过滤输出行,执行SQL脚本等。各个步骤使用跳(Hop)来链接。跳定义了一个数据流通道,即数据由一个步骤流(跳)向下一个步骤。在Kettle中数据的最小单位是数据行(row),数据流中流动的其实是缓存的行集(RowSet)。
步骤(Step)
步骤(控件)是转换里的基本的组成部分。
一个步骤有如下几个关键特性:
1、步骤需要有一个名字,这个名字在同一个转换范围内唯一。
2、每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。
3、步骤将数据写到与之相连的一个或多个输出跳(hop),再传送到跳的另一端的步骤。
4、大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制。
分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。
跳(Hop)
跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路。
跳实际上是两个步骤之间的被称之为行集的数据行缓存,行集的大小可以在转换的设置里定义。当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。
元数据
每个步骤在输出数据行时都有对字段的描述,这种描述就是数据行的元数据。
通常包含下面一些信息。
1、名称:数据行里的字段名是唯一的
2、数据类型:字段的数据类型
3、格式:数据显示的方式,如Integer的#、0.00
4、长度:字符串的长度或者BigNumber类型的长度。
5、精度:BigNumber数据类型的十进制精度
6、货币符号:¥
7、小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)
8、分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(')
数据类型
数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段包含下面几种数据类型。
1、String:字符类型数据
2、Number:双精度浮点数
3、Integer:带符号长整型(64位)
4、BigNumber:任意精度数据
5、Date:带毫秒精度的日期时间值
6、Boolean:取值为true和false的布尔值
7、Binary:二进制字段可以包含 图像、声音、视频及其他类型的二进制数据。
并行
跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种高并发低消耗的方式也是ETL工具的核心需求。
对于kettle的转换,不能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输出跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。
作业
作业(Job),负责定义一个完整工作流的控制,比如将转换的结果发送邮件给相关人员。因为转换(transformation)以并行方式执行,所以必须存在一个串行的调度工具来执行转换,这就是Kettle中的作业。
— EOF —
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南