开源Kettle &包装Kettle 深度功能缺陷
开源Kettle &包装Kettle 深度功能缺陷
Kettle 是业界开源ETL工具中,知名度最高且被引进各行业项目应用最早期。上线后 当下如何了?“天下免费的午餐”真的香吗? 以下是各用户早期上线后,深度使过其功能缺陷问题导致不能满足目前业务场景,如有以下需求,请谨慎启用开源工具。开启此类项目需慎始善终...... 后期人工写脚本、完善、弥补、更换、替代的成本远远高于初衷的“开源可节流”。避雷预看,前浪们对使用KETTLE&包装KETTLE的深度功能缺陷,总结如下:
随着数据量不断增加,KETTLE不能满足业务场景的需求 |
||
序号 |
功能缺陷 |
具体描述 |
1 |
管理调度 |
当前生产环境,成百上千个job需要管理,目前依赖Linux的crontab进行调度,需要自己写脚本,配置、管理 相当烦碎麻烦 |
2 |
失败重跑 |
目前任务失败之后不能尝试自动重跑 |
3 |
依赖管理 |
当前工作场景中,需要梳理某几张表变动的影响范围,无法快速找到用到这几张变动表的任务及下游对应的表 |
4 |
任务详情 |
数据的读取速度,处理速度,报错信息等不够直观、完整 |
5 |
hive交互 |
在hive建表时不可设定分区、分桶、压缩格式或其他参数的设置 |
6 |
数据验证 |
验证数据同步不正常 |
北京灵蜂纵横软件有限公司 ETL工具产品系列之高端 BeeDI V10.0 验证功能 官网下载:http://www.livbee.com
BeeDI V10.0 功能组件
作业调度:BeeDI V10.0作业调度功能,支持任务的启动、定时优先级设置、暂停、忧复及停止等控制。作业调度界面如:
工作流调度:BeeDI V10.0工作流调度功能,支持任务的定时循环,支持成功、失败及条件等任务控制路径,支持任务的并发处理,支持任务运行时的动态轨迹显示。工作流调度 界面如:
作业定时:BeeDI V10.0作业调度功能,支持任务的启动、定时、优先级设置、暂停、忧复及停止等控制;作业支持定时启动,提供多种定时策略,包括日、周、月、工作日、时、分、秒等,通过对作业定时启动可实现作业的循环自动运行
工作流异常重试:BeeDI V10.0支持成功、失败、条件等三种任务控制路径,支持基于全局变量的条件路径转移;支持任务的循环运行
数据追溯: BeeDI V10.0提供数据追溯功能,支持对集成环境涉及的任意表进行追溯,识别指定数据表从产生到最终使用途经的各个系统及对应的映射转换规则,在全局范围快速了解数据使用情况。数据追溯 界面如下:
Bee脚本编辑:BeeDI V10.0集成bee脚本(公司自研发)开发环境支持,支持脚本编辑、运行、断点调试、变量值查看等功能。内置集成脚本,支持用户对任务的无限扩展。支持实现相当复杂的数据清洗及标准化。提供集成脚本开发环境(IDE),采用类似C语言的语法,充分满足用户定制各种复杂ETL任务的需要。以下为Bee脚本编辑 调试界面:
数据比对: BeeDI V10.0提供任意数据库之间(Oracle、SQL Server、MySQL、Elasticsearch、Cassandra、MongoDB等)表的数据比对功能,支持异构表(不同表名,目标表字段可多于源表)、无主键表的比对,比对结果包含概要统计信息及差异数据明细对照表。以下为数据比对界面:
数据分析:BeeDI V10.0提供数据统计分析功能,可查看任意数据库、文件或Hadoop数据分布情况,对数据进行量化分析,提供记录总数、算术和、平均值、最大值、最小值、方差及标准差指标分析,支持一维、二维、三维数据度量,按照维度特征自动输出饼图、趋势图、及直方图。
posted on 2022-02-28 15:57 changchengchang 阅读(261) 评论(0) 编辑 收藏 举报