Kettle - 简介
ETL简介
ETL,
Extract-Transform-Load
的缩写,即数据抽取、转换、装载的过程。市面上常用的ETL工具有很多,比如Sqoop,DataX,Kettle,Talend等。
Kettle简介
Kettle是一款国外开源的ETL工具,纯java编写,可以在Window、Linux、Unix上运行,绿色无需安装,数据抽取高效稳定。
Kettle中文名称叫水壶,该项目的主程序员MATT希望把各种数据放到一个壶里,然后以一种指定的格式流出。
Kettle允许管理来自不同数据库的数据,通过提供一个图形化的用户环境来描述你想做什么,而不是你想怎么做。
Kettle中有两种脚本文件,
transformation
和job
,transformation
完成针对数据的基础转换,job
则完成整个工作流的控制。Kettle现在已经更名为PDI,
Pentaho Data Integration-Pentaho
数据集成
transformation 和 job的区别
作业(
job
)是步骤流,转换(transformation
)是数据流。这是作业和转换的最大的区别。作业(
job
)的每一个步骤,必须等到前面的步骤都跑完了,后面的步骤才会执行;而转换(transformation
)会一次性把所有控件全部先启动(一个控件对应启动一个线程),然后数据流会从第一个控件开始,一条记录、一条记录地流向最后的控件。
Kettle 的核心组件
1、勺子(
Spoon.bat
/spoon.sh
):是一个图形化的界面,可以让我们用图形化的方式开发转换和作业。2、煎锅(
Pan.bat
/spoon.sh
):利用Pan可以用命令行的形式执行由Spoon编辑的转换和作业3、厨房(
Kitchen.bat
/kitchen.sh
):利用Kitchen可以使用命令行调用由Spoon编辑好的Job4、菜单(
Carte.bat
/Carte.sh
):Carte是一个轻量级的Web容器,用于建立专用、远程的ETL Server
Kettle 特点
免费开源:基于Java的免费开源的软件,对商业用户也没有限制
易配置:可以在Window、Linux、Unix上运行,绿色无需安装、数据抽取高速稳定
不同数据库:ETL工具集,它允许你管理来自不同数据库的数据
两种脚本文件:transformation和job,transformation完成针对数据的基础转换,job则完成整个工作流的控制
图形界面设计:通过图形界面设计实现做什么业务,无需写代码去实现
定时功能:在Job下的start模块,有一个定时功能,可以每日,每周等方式进行定时
Kettle 的目录说明
Kettle 的文件说明
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南