【安装配置】Kettle基础
Kettle基础
基础知识
ETL简介
- ETL,Extract-Transform-Load缩写,即数据抽取、转换、装载的过程
Kettle简介
-
概述
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle中有两种脚本文件,transformation和job,transformation完成针对数据的基础转换,job完成整个工作流的控制。
Kettle现在已经更名为PDI,Pentaho Data Integration-Pentaho数据集成。
-
Kettle设计
-
概述
Transformation(转换)完成针对数据的基础转换,Job(作业)完成整个工作流的控制。
-
区别
作业是步骤流,转换是数据流。这是作业和转换最大的区别。
作业的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才会执行;而转换会一次性把所有控件全部先启动(—个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录、一条记录地流向最后的控件;
-
解析
-
-
Kettle核心组件
-
勺子(Spoon.bat/spoon.sh)
是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。
windows选择
Spoon.bat
;Linux选择Spoon.sh
-
煎锅(Pan.bat/pan.sh)
利用Pan可以用命令行的形式执行由Spoon编辑的转换和作业
-
厨房(Kitchen.bat/kitchen.sh)
利用Kitchen可以使用命令行调用由Spoon编辑好的Job
-
菜单(Carte.bat/ Carte.sh)
Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server。
-
-
Kettle特点
-
免费开源
基于java的免费开源的软件,对商业用户也没有限制
-
易配置
可以在Window、Linux、Unix上运行,绿色无需安装,数据
-
不同数据库
ETL工具集。它允许你管理来血不同数狠库的数据
-
两种脚本文件
transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制
-
图形界面设计
通过图形界面设计实现做什么业务,无需写代码去实现
-
定时功能
在Job下的start模块,有一个定时功能。可以每日,每周等方式进行定时
-
-
Kettle核心概念
-
可视化编程
可使用图形化的方式定义复杂的ETL程序和工作流
快速构建复杂的ETL作业和减低维护工作量。
通过隐藏很多技术细节,使IT领域更贴近于商务领域。
-
转换(transaformation)
转换负责数据的输入、转换、校验和输出等工作;Kettle中使用转换完成数据ETL全部工作。
转换由多个步骤 (Step) 组成,如文本文件输入,过滤输出行,执行 SQL 脚本等;
各个步骤使用跳(Hop) 来链接;
跳定义了一个数据流通道,即数据由一个步骤流 (跳)向下一个步骤;
在 Kettle 中数据的最小单位是数据行(row),数据流中流动其实是缓存的行集(RowSet) 。
-
步骤(Step)
步骤(控件)是转换里的基本的组成部分;
特性
- 步骤需要有一个名字,这个名字在同一个转换范围内唯一。
- 每个步骤都会读、写数据行(唯一例外是“生成记录”步骤,该步骤只写数据)。
- 步骤将数据写到与之相连的一个或多个输出跳(hop),再传送到跳的另一端的步骤。
- 大多数的步骤都可以有多个输出跳。一个步骤的数据发送可以被设置为分发和复制,分发是目标步骤轮流接收记录,复制是所有的记录被同时发送到所有的目标步骤。
-
跳(Hop)
跳就是步骤之间带箭头的连线,跳定义了步骤之间的数据通路
跳实际上是两个步骤之间的被称之为行集的数据行缓存,行集的大小可以在转换的设置里定义。
当行集满了,向行集写数据的步骤将停止写入,直到行集里又有了空间。
当行集空了,从行集读取数据的步骤停止读取,直到行集里又有可读的数据行。
-
元数据
每个步骤在输出数据行时都有对字段的描述,被称为数据行的元数据;
包含信息
- 名称:数据行里的字段名是唯一的。
- 数据类型:字段的数据类型。
- 格式:数据显示的方式,如Integer的#、0.00。
- 长度:字符串的长度或者BigNumber类型的长度。
- 精度:BigNumber数据类型的十进制精度。
- 货币符号:¥
- 小数点符号:十进制数据的小数点格式。不同文化背景下小数点符号是不同的,一般是点(.)或逗号(,)。
- 分组符号:数值类型数据的分组符号,不同文化背景下数字里的分组符号也是不同的,一般是点(.)或逗号(,)或单引号(’)
-
数据类型
数据以数据行的形式沿着步骤移动。一个数据行是零到多个字段的集合,字段有多种数据类型
String
--字符类型数据Number
--双精度浮点数Integer
--带符号长整型(64位)BigNumber
--任意精度数据。Date
--带毫秒精度的日期时间值。Boolean
--取值为true和false的布尔值。Binary
--二进制字段可以包含图像、声音、视频及其他类型的二进制数据。
-
并行
跳的这种基于行集缓存的规则允许每个步骤都是由一个独立的线程运行,这样并发程度最高。这一规则也允许数据以最小消耗内存的数据流的方式来处理。在数据仓库里,我们经常要处理大量数据,所以这种高并发低消耗的方式也是ETL工具的核心需求。
对于kettle的转换,不能定义一个执行顺序,因为所有步骤都以并发方式执行:当转换启动后,所有步骤都同时启动,从它们的输入跳中读取数据,并把处理过的数据写到输出跳,直到输入跳里不再有数据,就中止步骤的运行。当所有的步骤都中止了,整个转换就中止了。
如果你想要一个任务沿着指定的顺序执行,那么就要使用“作业”! -
作业(Job)
作业(Job),负责定义一个完成整个工作流的控制,比如将转换的结果发送邮件给相关人员。
转换(transformation)以并行方式执行,必须存在一个串行的调度工具来执行转换,即设计了Kettle中的作业。
-
Kettle安装部署
安装部署
部署
-
安装
在实际企业开发中,都是在本地Windows环境下进行kettle的job和Transformation开发的,可以在本地运行,也可以连接远程机器运行
-
安装jdk(版本建议1.8及以上)并配置环境变量
-
下载kettle压缩包,因kettle为绿色软件,解压缩到任意本地路径即可
-
双击Spoon.bat,启动图形化界面工具,就可以直接使用
-
-
其他配置
-
JDBC的jar导入到kettle的lib文件夹内
如果不导入jar包的话,可能会出现连接数据失败的报错
题主使用的MySQL是8.0的版本,而JDK是1.8版本,目前测试下来用
mysql-connector-java-5.1.48.jar
即可只要你的MySQL是
5.6及以后
的数据库版本,直接下载8.0+的最新驱动包mysql-connector-java-8.0.26.jar
即可,不一定非要MySQL 5.7
就下5.7
的驱动包,而且MySQL官方文档也说明建议MySQL 5.6
以后的升级驱动包为8.0+
的,如下:即MySQL驱动包8.0+
版本能够兼容MySQL 5.6
及之后的所有版本的数据库连接如果你使用的MySQL
低于5.6
版本的,比如MySQL 5.5,驱动包8.0+是不兼容的,无法完成数据库的连接
-
使用说明
-
目录说明
-
文件说明
-
界面简介
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· 周边上新:园子的第一款马克杯温暖上架
· 分享 3 个 .NET 开源的文件压缩处理库,助力快速实现文件压缩解压功能!
· Ollama——大语言模型本地部署的极速利器
· DeepSeek如何颠覆传统软件测试?测试工程师会被淘汰吗?
· 使用C#创建一个MCP客户端