Kettle杂记
- Job:由Translation或SubJob组成的串行任务流,重在任务的逻辑编排,面向的是任务。
- Translation:由Step组成的并行数据流,面向的是数据行等原子数据单元,每个Step在独立的线程中执行【狭义的ETL描述的就是Translation过程】。
- Hop:是Step间的数据流缓冲管道,其读写控制为阻塞队列实现(空就阻塞读线程,满了就阻塞写线程)。
- ResourceRpository:是指用于存储通过可视化工具Spoon设计出的Job、Translation等对象的源文件的地方;可以是RDBMS、FS,方便对源文件集中化管理和多人协作;如果Spoon连接好了资源仓库后,后续的保存动作将把对象文件存储到仓库;同时仓库提供了树形的对象访问结构,非常方便协作、管理。
- 实践中,采用并发输出的方式,是实现高效抽取的最佳手段(可以通过增加输出步骤的副本数来实现)。
0.定时调度。
1.从配置文件读取数据,并作为jvm变量,在作业中传递。
2.手动定义jvm变量,并在作业中传递。
3.从db读取数据,并作为jvm变量,在作业中传递。
4.表输入
5.表删除
6.表输出
7.日志记录
8.
学习使我充实,分享给我快乐!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)