Hana 实时数据同步优化(3)

简述

CloudCanal 近期对 Hana 源端链路做了新一轮优化，优化点主要来自用户实际场景使用，这篇文章简要做下分享。

本轮优化主要包含:

新增任务级增量表
新增增量表定时清理能力
新增增量表表结构自动演进能力
任务延迟判定优化
Hana 1.x 的兼容
产品化和文档优化

优化点

任务级增量表

CloudCanal Hana 源端任务原本不支持修改默认增量表，导致不同任务的触发器将增量数据写入同一个表，不同任务将相互影响。

比如，A 任务订阅的表积压大量数据，将影响B,C,D等订阅相同表的任务增量同步效率。

为解决这一问题，本轮优化支持 每个任务可单独设置增量表 ，以此确保任务之间互不影响。

增量表定时清理

触发器将增量数据写入增量表后，若未及时清理，可能导致空间占用增加。

在之前的版本中，用户只能手动定期清理，过程繁琐且具备一定风险(清理错)。

本轮优化增加设置任务参数 triggerDataCleanEnabled 打开自动定时清理增量表功能，并提供两个参数进行控制：

triggerDataCleanIntervalMin：增量表清理间隔（单位：分钟）
triggerDataRetentionMin：增量表数据保留时间（单位：分钟）

通过这套机制，用户能够灵活控制增量表的清理操作，同时确保未消费的增量数据不会被意外清除。

增量表自动演进

Hana 增量任务创建时自动生成增量表，CloudCanal 依赖于增量表实现各种能力，但随着 CloudCanal 版本更新，可能对增量表进行变更(比如加入新字段)。

由此带来的问题是：用户在更新 CloudCanal 后需要手动执行 DDL 以适应增量表结构的变化，若存在大量增量表，操作相当复杂。

为解决此问题，CloudCanal 新增 增量表结构 DIFF 能力，在任务启动时 自动生成差异 DDL 实现对增量表的自动演进。

延迟判定优化

Hana 源端增量同步使用位点(增量表自增ID)来判断延迟，当位点向前推进时可准确获取延迟，但若无变更事件导致位点不更新，延迟会持续增大，实际上并未发生延迟。

为解决这一问题，本轮优化 通过查询增量表来判断是否存在延迟，具体逻辑为:

若存在数据，系统根据增量数据的时间戳计算延迟。
若无数据，任务获取当前时间发送心跳事件，并根据心跳上的时间戳计算延迟。

时间戳仅在重置位点时才用于数据查找，且在查找时进行时区转换处理。

Hana 1.x 的兼容

CloudCanal 之前版本只支持 Hana 2.x 版本，但是随着用户使用，我们发现一些用户还是在使用 Hana 1.x 版本。

Hana 1.x 版本的触发器和 2.x 存在一定的差异，且元信息获取逻辑也不同。

本轮优化对上述差异点进行了兼容性优化，使 CloudCanal 能够比较全面的支持 Hana 1.x 和 2.x 版本的数据同步。

产品化增强

本轮优化除了内核层面增强，对产品能力和文档做了一系列优化，有效解决用户在数据源添加、任务创建等环节中常见的权限问题。

完善 Hana 权限准备文档、数据源创建 FAQ
创建任务时预检 Schema、增量表的权限
创建任务勾选表时，自动过滤当前任务增量表

这些优化举措让用户创建迁移同步链路更加流畅，节省时间。

未来方向

优化多字段触发的处理速度

在处理多字段表（单个表 300+ 字段）时，目前触发器的执行效率不满足预期，导致 DML 操作速度较慢，我们后续将对触发器模板进行性能优化，以提高处理速度。

总结

本文简要介绍 CloudCanal 近期对 Hana 源端数据同步的优化，以及链路未来的方向，希望对读者有所帮助。

posted @ 2024-01-11 20:01 clougence 阅读(146) 评论(0) 收藏举报

刷新页面返回顶部

clougence