10.29

数据回填,主要基于数据的生产血缘,包括表依赖血缘、任务依赖血缘等。

该方案主要包括以下几个功能模块:

回填感知:通过查询、订阅信息、新版本发布触发自动感知分区缺失、版本变更消息,通过分区检查器、版本变更感知器确定回填日期范围;

回填编排:构建数据生产血缘,逐层解析表分区回填依赖,编排回填拓扑;

优化执行:依据回填拓扑和任务执行的元数据,将回填日期范围拆解为不同批次,系统化创建回填实例,通过并发协调器动态提交执行实例,运行完成后对结果进行校验并通知回填结果。

该方案的核心思路是充分挖掘数据生产消费血缘,依据血缘进行自动检查和确认,从而替代手工检查,提升回填效率;该项能力的依赖项是需要算子级的数据血缘能力。目前平台已经具备此能力,同时依据任务执行元数据进行多分区合并,并提交批次,大幅降低资源消耗,使用户从关注过程到仅关注结果,把更多的时间放在有价值的事情上。目前该方案正在建设中,预计今年 Q2 上线。

posted @   SDGVSBGDRH  阅读(5)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示