博客园 首页 私信博主 显示目录 隐藏目录 管理 动画

Checkpoint 和持久化机制的区别

最主要的区别在于持久化只是将数据保存在 BlockManager 中,但是 RDD lineage(血缘关系,依赖关系)是不变的。

但是 checkpoint 执行完之后,rdd 已经没有之前所谓的依赖 rdd了,而只有一个强行为其设置的 checkpointRDDcheckpoint 之后 rdd lineage 就改变了。

持久化的数据丢失的可能性更大,因为节点的故障会导致磁盘、内存的数据丢失。但是checkpoint 的数据通常是保存在高可用的文件系统中,比如 HDFS 中,所以数据丢失可能性比较低

posted @ 2022-05-31 18:42  CHANG_09  阅读(106)  评论(0编辑  收藏  举报