Savepoint 和 Checkpoint

Savepoint 和 Checkpoint 都是使用 Asynchronous Barrier Snapshotting（简称 ABS）算法实现分布式快照的，都可以确保一致性、容错、故障恢复。何其相似乃尔，却又为何既生瑜，又生亮？是无心之举，还是有意为之？

什么是 Checkpoint？

Flink Checkpoint 是一种容错恢复机制。这种机制保证了实时程序运行时，即使突然遇到异常也能够进行自我恢复。Checkpoint 对于用户层面，是透明的，用户会感觉程序一直在运行。Flink Checkpoint 是 Flink 自身的系统行为，用户无法对其进行交互，用户可以在程序启动之前，设置好实时程序 Checkpoint 相关参数，当程序启动之后，剩下的就全交给 Flink 自行管理。当然在某些情况，比如 Flink On Yarn 模式，某个 Container 发生 OOM 异常，这种情况程序直接变成失败状态，此时 Flink 程序虽然开启 Checkpoint 也无法恢复，因为程序已经变成失败状态，所以此时可以借助外部参与启动程序，比如外部程序检测到实时任务失败时，从新对实时任务进行拉起。

什么是 Savepoint ？（官网）

Savepoint 是依据 Flink checkpointing 机制所创建的流作业执行状态的一致镜像。你可以使用 Savepoint 进行 Flink 作业的停止与重启、fork 或者更新。 Savepoint 由两部分组成：稳定存储（列入 HDFS，S3，…) 上包含二进制文件的目录（通常很大），和元数据文件（相对较小）。稳定存储上的文件表示作业执行状态的数据镜像。 Savepoint 的元数据文件以（相对路径）的形式包含（主要）指向作为 Savepoint 一部分的稳定存储上的所有文件的指针。

Savepoint 与 Checkpoint 有什么不同？

从概念上讲， Flink 的 Savepoint 与 Checkpoint 的不同之处类似于传统数据库中的备份与恢复日志之间的差异。 Checkpoint 的主要目的是为意外失败的作业提供恢复机制。 Checkpoint 的生命周期由 Flink 管理，即 Flink 创建，管理和删除 Checkpoint - 无需用户交互。作为一种恢复和定期触发的方法，Checkpoint 实现有两个设计目标：i）轻量级创建和 ii）尽可能快地恢复。可能会利用某些特定的属性来达到这个，例如， 工作代码在执行尝试之间不会改变。在用户终止作业后，通常会删除 Checkpoint（除非明确配置为保留的 Checkpoint）。

与此相反、Savepoint 由用户创建，拥有和删除。他们的用例是计划的，手动备份和恢复。例如，升级 Flink 版本，调整用户逻辑，改变并行度，以及进行红蓝部署等。当然，Savepoint 必须在作业停止后继续存在。从概念上讲，Savepoint 的生成，恢复成本可能更高一些，Savepoint 更多地关注可移植性和对前面提到的作业更改的支持。

除去这些概念上的差异，Checkpoint 和 Savepoint 的当前实现基本上使用相同的代码并生成相同的格式。然而，目前有一个例外，我们可能会在未来引入更多的差异。例外情况是使用 RocksDB 状态后端的增量 Checkpoint。他们使用了一些 RocksDB 内部格式，而不是 Flink 的本机 Savepoint 格式。这使他们成为了与 Savepoint 相比，更轻量级的 Checkpoint 机制的第一个实例。

Checkpoint 与 Savepoint 的区别

Checkpoint 与 savepoints 有一些区别，体现在 checkpoint ：

使用 state backend 特定的数据格式，可能以增量方式存储。
不支持 Flink 的特定功能，比如扩缩容。

总结

相比 Savepoint 而言，Checkpoint 更加轻量级。但有些场景 Checkpoint 并不能完全满足我们的需求，这时需要使用Savepoint。

在使用过程中，如果我们的需求能使用 Checkpoint 来解决优先使用 Checkpoint。当 Flink 任务中的一些依赖组件需要升级重启时，例如 hdfs、Kafka、yarn 升级或者 Flink 任务的 Sink 端对应的 MySQL、Redis 由于某些原因需要重启时，Flink 任务在这段时间也需要重启。但是由于 Flink 任务的代码并没有修改，所以 Flink 任务启动时可以从 Checkpoint 处恢复任务。

注：对于状态超过 100G 的 Flink 任务，笔者在生产环境验证过：每次从 Savepoint 恢复任务时需要耗时 10分钟以上，而 Checkpoint 可以在 2分钟以内恢复完成。充分说明了 Checkpoint 相比 SavePoint 而言，确实是轻量级的，所以 Checkpoint 能满足的业务场景强烈建议使用 Checkpoint 恢复任务，而不是使用 SavePoint。

posted @ 2021-07-30 13:40 民宿阅读(681) 评论(0) 收藏举报

刷新页面返回顶部

民宿

您好，我叫李玉民，点点关注交个朋友吧

Savepoint 和 Checkpoint

什么是 Checkpoint？

什么是 Savepoint ？（官网）

Savepoint 与 Checkpoint 有什么不同？

Checkpoint 与 Savepoint 的区别

总结

公告

民宿

您好，我叫李玉民，点点关注交个朋友吧

Savepoint 和 Checkpoint

什么是 Checkpoint？

什么是 Savepoint ？ （官网）

Savepoint 与 Checkpoint 有什么不同？

Checkpoint 与 Savepoint 的区别

总结

公告

什么是 Savepoint ？（官网）