Flink同步mysql到iceberg
一、如何做一致性保障
1、全量数据分片读取,增量数据单并发读取,保证增量阶段不会乱序
2、全量阶段写入失败会清空表后重新写入,避免重复数据。
3、全量阶段多task并行读取,把每个task开始结束时间提交给Flink Coordinator,由Coordinator做时间合并后,仅读取一次全量同步区间内变化的binlog数据,然后更新目标表。最后一个窗口较大时,可以将数据写入state,保证内存占用不会过大。
4、依托Flink 一致性快照算法。 mysql->iceberg在flink分多阶段处理,mysql -> flink source -> flink writer -> flink committer,iceberg只有在committer后才可读,flink快照会保留各个阶段状态和数据,如处理数据过程中出现异常后可从最近快照恢复继续同步。
5、依托flink两阶段提交。 在同步阶段写数据文件时,写入文件对外不可读,只有committer后才对外可读。 flink把读写文件和committer分开成两个请求,保证脏数据不对外服务。
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 百万级群聊的设计实践
· 永远不要相信用户的输入:从 SQL 注入攻防看输入验证的重要性
· 全网最简单!3分钟用满血DeepSeek R1开发一款AI智能客服,零代码轻松接入微信、公众号、小程
· .NET 10 首个预览版发布,跨平台开发与性能全面提升
· 《HelloGitHub》第 107 期