Kafka-事务-解决跨分区跨会话的问题
背景
我们提到过,Kafka 的 Exactly Once 幂等性只能保证单次会话内的精准一次性,不能解决跨会话和跨分区的问题;
事务介绍
Kafka 0.11 版本开始引入了事务支持。事务保证Kafka在 Exactly Once 语义的基础上,Producer 和 Consumer 可以跨分区和会话,要么全部成功,要么全部失败。
Producer事务
为了实现跨分区跨会话的事务,需要引入一个全局唯一的 Transaction ID,并将 Producer 获得的 PID 和 Transaction ID 绑定。这样当Producer重启之后,就可以通过正在运行的 Transaction ID 获得原来的 PID。
为了管理 Transaction,Kafka引入了一个新的组件 Transaction Coordinator。Producer就是通过 Transaction Coordinator 交互获得 Transaction ID 对应的任务状态。还负责将事务所有写入Kafka的一个内部Topic,这样即使整个服务重启,由于事务状态得到保存,进行中的事务状态可以得到恢复,从而继续获得。
Consumer
对于 Consumer而言,事务的保证就会相对较弱,尤其是无法保证 Commit 的信息被精确消息。这是由于 Consumer可以通过 offset 访问任意信息,而且不同的 segmentFile 生命周期不同,同一事务的消息可能会出现重启后被删除的情况。