10.29

数据回填，主要基于数据的生产血缘，包括表依赖血缘、任务依赖血缘等。

该方案主要包括以下几个功能模块：

回填感知：通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息，通过分区检查器、版本变更感知器确定回填日期范围；

回填编排：构建数据生产血缘，逐层解析表分区回填依赖，编排回填拓扑；

优化执行：依据回填拓扑和任务执行的元数据，将回填日期范围拆解为不同批次，系统化创建回填实例，通过并发协调器动态提交执行实例，运行完成后对结果进行校验并通知回填结果。

该方案的核心思路是充分挖掘数据生产消费血缘，依据血缘进行自动检查和确认，从而替代手工检查，提升回填效率；该项能力的依赖项是需要算子级的数据血缘能力。目前平台已经具备此能力，同时依据任务执行元数据进行多分区合并，并提交批次，大幅降低资源消耗，使用户从关注过程到仅关注结果，把更多的时间放在有价值的事情上。目前该方案正在建设中，预计今年 Q2 上线。

posted @ 2024-11-25 08:30 SDGVSBGDRH 阅读(52) 评论(0) 收藏举报

刷新页面返回顶部

liyize

10.29

公告