flink的checkpoint
概述
本文主要是基于flink不同版本之间的checkpoint机制进行阐述,主要是对比1.11之后和之前的差异,使得可以针对不同的场景使用不同的checkpoint方式。
什么是checkpoint
checkpoint是flink中的一种容错机制,使得任务失败的时候可以进行重启而不丢失之前的一些信息(需要数据源支持重发机制)。
checkpoint方式
网上有很多针对checkpoint的讲解,我这里不再阐述,主要是针对几种checkpoint方式进行简单说明,使得更容易理解。
举栗:我们现在读取kafka的数据,然后做map转换,map中通过状态存储流经的条数。黄色的代表kafka的分区,蓝色代表我们flink的map的subtask,绿色的代表外部状态存储。
At least-once
我理解是至少计算一次语义,举例说明就是当我们的任务当前消费到kafka的offset,partition1是1200,partition2是1500,这时候flink会把消费的kafka的每个partition的offset信息存储到快照中,然后flink中的CheckpointCoordinator会向每个source算子中定期插入一个叫barrier的东西,然后数据往下游处理,当map的某个subtask收到上游的一个barrier的时候,不会阻塞收到该barrier的channel(比如说是partition2来的),而是继续处理该channel中的数据,也就是继续会像map的状态中计数,直到上游所有的barrier到齐之后触发快照操作,快照存储在本地内存中,这时其实我们的kafka的offset记录的是1500,但处理到offset已经大于1500,可能是1600,然后直到sink阶段做完快照,所有的算子通知CheckpointCoordinator快照成功生成,CheckpointCoordinator会像所有算子发送checkpoint成功的信息,当触发下次checkpoint的时候,任务如果失败了,需要从上次成功的checkpoint恢复,kafka的offset是1200和1500,也就是会从这个offset恢复,但是状态是从1200,1600恢复的,所以这个时候其实partition2的数据有100条计算了两次,这就是At least-once语义。
Exactly-once
与At least-once不同的是,当map算子收到上游的一个barrier的时候,会将收到该barrier后面的数据缓存起来,直到其它的barrier到齐做快照,继续将barrier往下游发送,该算子会首先处理缓存的数据,之后在处理上游来的数据,这个时候topic的offset记录的是1200和1500,map中状态存储的也是数据消费到1200和1500offset时的状态,如果下次checkpoint失败了,从这次checkpoint恢复也不会出现重复消费某些条数据的情况,这就是Exactly-once语义。
1.11 之后的exactly-once
在flink1.11之后提供了一种不需要barrier对齐也可以实现exactly-once语义的方式,和1.11之前不一样的是,1.11之前是在所有的barrier收到之后做快照,1.11之后是收到第一个barrier就做快照,很显然这样的话其实有一部分没有消费到,比如partition是1200,partition2是1500,首先收到partition1的barrier,触发快照,这时候还没有收到partition2的barrier,说明我们还没有消费完到1500offset的数据,如果下次checkpoint失败了,从这次checkpoint恢复,这样的话就会导致丢失数据,所以采取的方式就是在收到第一个barrier之后,将后面来的数据无论是该channel还是其它的channel,全部存储到状态中,这样的目的是为了恢复的时候,可以将这部分数据回放到相应的channel中,因为kafka那边只能从记录的offset重发,所以这样也实现了exactly-once语义,这种方式目前只支持exactly-once,不支持at least-once。