大数据治理ETL 工具开源 Kettle 与国产老牌Beeload 核心功能对比!
建设数据中心其间有一重要且烦碎的数据治理工作即(数据清洗、数据过滤、数据转换、数据标准化......)
近两年出现所谓的“ 数据中台”在我认为就是“传统数据整合平台” 别名!其解决数据治理问题 治标不治本。就是一个数据黑匣子。
使用ETL工具,可对数据治理整个过程:部署简易、配置可视化,配置灵活 ,自主治理、数据流动透明,后期维护任意.....
灵蜂Beeload 与 Pentaho Kettle 核心功能对比
序号 | 技术参数 | Beeload | Kettle |
1 | 整库迁移或批量表导出 | 自动映射源表结构到目标库,支持批量映射。 | 手工定义java class 完成表结构映射 |
2 |
时间戳 同步 |
要求源表包含时间戳字段,每次同步时,根据上次记录的断点读取未同步的数据,同步结束后记录断点。所有逻辑全部自动完成,无需手工扩展。 | 要求目标表包含和源表一样的时间戳字段,每次同步时通过MAX()函数获取目标表已经同步数据的最大哦时间戳,然后在源表设置过滤条件读取上次同步后产生的记录,需要手工编辑SQL处理上述逻辑。 |
3 |
触发器 同步 |
软件自动在源库创建触发器和临时表,数据同步后,自动删除临时表中的数据。 | 用户自己手工创建触发器及临时表,每当源表中的数据发生变化,就被相应的触发器将变化的数据写入临时表,抽取线程从临时表中抽取数据后需要手工删除表数据。 |
4 |
全表 比对 |
分为是否进行差异更新,差异更新时,通过计算每条记录的校验码,对源表和目标记录进行比对,目标表记录不存在则插入,目标表记录不相同则更新,目标表包含源表没有的记录则删除 | 将每一条数据的每列内容进行比对,比对完了以后追加一个状态字段用来描述这条数据的状态,共有四种状态:identical(未改变)、changed(改变)、new(新增)、deleted(删除),所对应的操作就是增、删、改,接下来就可以借助Kettle的switch/case 组件按照操作类型执行不同的操作了。 |
5 |
任务调度 |
包含作业调度和工作流调度,统一管理任务的运行。 | 软件自身定时调度功能不稳定,需要在系统计划中部署任务。 |
6 |
定制开发 |
内置集成脚本开发环境,所有图形配置均可转为脚本执行,脚本支持逐行断点调试。 | 使用Java Script 脚本或定义 Java class。 |
posted on 2020-07-16 22:18 changchengchang 阅读(1604) 评论(0) 编辑 收藏 举报
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 周边上新:园子的第一款马克杯温暖上架
· Open-Sora 2.0 重磅开源!
· 提示词工程——AI应用必不可少的技术