kettle应用浅析

kettle作为etl数据管理工具的一款开源软件工具,简单易上手。

先来看看几个简单配置,配置完成后就能运行使用了。

1、新建转换并配置数据库连接

 

2、数据流转配置

 

 3、运行转换,根据日志级别,启动后会输出对应日志

 

 

随着正式应用会碰见各种问题,以下简单列举几个我经常碰上的问题及处理方式:

1、数据量过大,执行一段时间后数据库连接断开导致报错,建议分页处理和数据库参数即可解决

分页处理:

  

数据库参数(断开重连、超时时间,时区)配置:

 

 上图时区编码解决数据时区转换问题

 

2、异常数据处理,可以根据数据有效性进行检查(时间、数值、年龄、性别、身份证号、缺省值等格式检验),建议集中处理到一张日志表中,方便以后界面化调度处理

  

3、特殊格式、类型等处理,建议使用自定义脚本处理,支持java和js代码实现,例如特定日期格式、坐标系转换等等

  

 

 

4、异常问题实时监控,可使用异常处理,邮件通知,附带日志文件方便分析,当然也可以通过java脚本实现短信等等通讯方式

  

作为一款开源工具,kettle功能已经很强大了,具体应用到产品中还是有些美中不足,目前github上有一些开源项目,可以集成到系统中实现应用界面调度使用,接下来要尝试下集成开源应用到产品里,完善一下这部分指挥调度功能。

posted @ 2021-12-13 16:06  技术大兵  阅读(183)  评论(0编辑  收藏  举报