kettle应用浅析
kettle作为etl数据管理工具的一款开源软件工具,简单易上手。
先来看看几个简单配置,配置完成后就能运行使用了。
1、新建转换并配置数据库连接
2、数据流转配置
3、运行转换,根据日志级别,启动后会输出对应日志
随着正式应用会碰见各种问题,以下简单列举几个我经常碰上的问题及处理方式:
1、数据量过大,执行一段时间后数据库连接断开导致报错,建议分页处理和数据库参数即可解决
分页处理:
数据库参数(断开重连、超时时间,时区)配置:
上图时区编码解决数据时区转换问题
2、异常数据处理,可以根据数据有效性进行检查(时间、数值、年龄、性别、身份证号、缺省值等格式检验),建议集中处理到一张日志表中,方便以后界面化调度处理
3、特殊格式、类型等处理,建议使用自定义脚本处理,支持java和js代码实现,例如特定日期格式、坐标系转换等等
4、异常问题实时监控,可使用异常处理,邮件通知,附带日志文件方便分析,当然也可以通过java脚本实现短信等等通讯方式
作为一款开源工具,kettle功能已经很强大了,具体应用到产品中还是有些美中不足,目前github上有一些开源项目,可以集成到系统中实现应用界面调度使用,接下来要尝试下集成开源应用到产品里,完善一下这部分指挥调度功能。