分布式【分布式事务】

一、事务

       事务实现应该具备原子性、一致性、隔离性和持久性。即ACID。

       原子性(Atomicity),可以理解为一个事务内的所有操作要么都执行,要么都不执行。

       一致性(Consistency),可以理解为数据是满足完整性约束的,也就是不会存在中间状态的数据,比如你账上有400,我账上有100,你给我打200块,此时你账上的钱应该是200,我账上的钱应该是300,不会存在我账上钱加了,你账上钱没扣的中间状态。

       隔离性(Isolation),指的是多个事务并发执行的时候不会互相干扰,即一个事务内部的数据对于其他事务来说是隔离的。

       持久性(Durability),指的是一个事务完成了之后数据就被永远保存下来,之后的其他操作或故障都不会对事务的结果产生影响。

      小结:事务就是为了使得一些更新操作要么都成功,要么都失败。

      联想:Redis事务中的某个命令失败了,之后的命令还是会被处理,Redis 不会停止命令,意味着也不会回滚。官方解释为如果命令出错那都是语法使用错误,是编程出错,而且这种情况应该在开发的时候就被检测出来,不应在生产环境中出现。然后 Redis 就是为了快!不需要提供回滚。

二、2pc

       2PC(Two-phase commit protocol),中文叫二阶段提交。 二阶段提交是一种强一致性设计。

       2PC 引入一个事务协调者的角色来协调管理各参与者(也可称之为各本地资源)的提交和回滚,二阶段分别指的是准备(投票)和提交两个阶段,即准备阶段提交/回滚阶段。

       注意这只是协议或者说是理论指导,只阐述了大方向,具体落地还是有会有差异的。

       流程:

       准备阶段协调者会给各参与者发送准备命令,你可以把准备命令理解成除了提交事务之外啥事都做完了。

        同步等待所有资源的响应之后就进入第二阶段即提交阶段(注意提交阶段不一定是提交事务,也可能是回滚事务)。

        假如在第一阶段所有参与者都返回准备成功,那么协调者则向所有参与者发送提交事务命令,然后等待所有事务都提交成功之后,返回事务执行成功。

        

                    

 

假如在第一阶段有一个参与者返回失败,那么协调者就会向所有参与者发送回滚事务的请求,即分布式事务执行失败。

                     

  如果是第二阶段提交失败情况:

  【第二阶段执行的是回滚事务操作】:答案是不断重试,直到所有参与者都回滚了,不然那些在第一阶段准备成功的参与者会一直阻塞着。

  【第二阶段执行的是提交事务操作】:答案也是不断重试,因为有可能一些参与者的事务已经提交成功了,这个时候只有一条路,就是头铁往前冲,不断的重试,直到提交成功,到最后真的不行只能人工介入处理。

       细节: 2PC 是一个同步阻塞协议,像第一阶段协调者会等待所有参与者响应才会进行下一步操作,当然第一阶段的协调者有超时机制,假设因为网络原因没有收到某参与者的响应或某参与者挂了,那么超时后就会判断事务失败,向所有参与者发送回滚命令。

       在第二阶段协调者的没法超时,因为按照我们上面分析只能不断重试!

       关键字:单点故障、网络分区

     【小结】: 2PC 是一种尽量保证强一致性的分布式事务,因此它是同步阻塞的,而同步阻塞就导致长久的资源锁定问题,总体而言效率低,并且存在单点故障问题,在极端条件下存在数据不一致的风险。

                当然具体的实现可以变形,而且 2PC 也有变种,例如 Tree 2PC、Dynamic 2PC。

                2PC 适用于数据库层面的分布式事务场景,而我们业务需求有时候不仅仅关乎数据库,也有可能是上传一张图片或者发送一条短信。

三、3PC

       3PC 的出现是为了解决 2PC 的一些问题,相比于 2PC 它在参与者中也引入了超时机制,并且新增了一个阶段使得参与者可以利用这一个阶段统一各自的状态。

       3PC 包含了三个阶段,分别是准备阶段、预提交阶段和提交阶段,对应的英文就是:CanCommit、PreCommit 和 DoCommit      

       看起来是把 2PC 的提交阶段变成了预提交阶段和提交阶段,但是 3PC 的准备阶段协调者只是询问参与者的自身状况,比如你现在还好吗?负载重不重?这类的。

       而预提交阶段就是和 2PC 的准备阶段一样,除了事务的提交该做的都做了。

       提交阶段和 2PC 的一样。

                      

 

    不管哪一个阶段有参与者返回失败都会宣布事务失败,这和 2PC 是一样的(当然到最后的提交阶段和 2PC 一样只要是提交请求就只能不断重试)。

四、TCC

        2PC 和 3PC 都是数据库层面的,而 TCC 是业务层面的分布式事务,就像我前面说的分布式事务不仅仅包括数据库的操作,还包括发送短信等,这时候 TCC 就派上用场了。是目前最火的一种分布式事务方案。需要自己代码实现分布式事务哦。

        TCC核心思想:针对每个操作,都要注册一个与之对应的确认和补偿(撤销)操作。

        TCC 指的是Try - Confirm - Cancel

  1.  Try 指的是预留,即资源的预留和锁定,注意是预留
  2. Confirm 指的是确认操作,这一步其实就是真正的执行了
  3.  Cancel 指的是撤销操作,可以理解为把预留阶段的动作撤销了

       注意:由于confirm或者cancel有可能会重试,因此对应的部分需要支持幂等操作

       其实从思想上看和 2PC 差不多,都是先试探性的执行,如果都可以那就真正的执行,如果不行就回滚。

        我们来看下流程,TCC模型还有个事务管理者的角色,用来记录TCC全局事务状态并提交或者回滚事务。

         

    

 

   可以看到流程还是很简单的,难点在于业务上的定义,对于每一个操作你都需要定义三个动作分别对应Try - Confirm - Cancel

   因此 TCC 对业务的侵入较大和业务紧耦合,需要根据特定的场景和业务逻辑来设计相应的操作。

   还有一点要注意,撤销和确认操作的执行可能需要重试,因此还需要保证操作的幂等。

   相对于 2PC和3PC ,TCC 适用的范围更大,但是开发量也更大,毕竟都在业务上实现,而且有时候你会发现这三个方法还真不好写。不过也因为是在业务上实现的,所以TCC可以跨数据库、跨不同的业务系统来实现事务。

   TCC最大的缺点就是代码侵入很大,他不能在全局事务中使用,只能在一部分业务中使用。

五、本地消息表     

       本地消息表其实就是利用了各系统本地的事务来实现分布式事务

       本地消息表顾名思义就是会有一张存放本地消息的表,一般都是放在数据库中,然后在执行业务的时候 将业务的执行和将消息放入消息表中的操作放在同一个事务中,这样就能保证消息放入本地表中业务肯定是执行成功的。

        然后再去调用下一个操作,如果下一个操作调用成功了好说,消息表的消息状态可以直接改成已成功。

        如果调用失败也没事,会有 后台任务定时去读取本地消息表,筛选出还未成功的消息再调用对应的服务,服务更新成功了再变更消息的状态。

        这时候有可能消息对应的操作不成功,因此也需要重试,重试就得保证对应服务的方法是幂等的,而且一般重试会有最大次数,超过最大次数可以记录下报警让人工处理。

       可以看到本地消息表其实实现的是最终一致性,容忍了数据暂时不一致的情况

       

六、MQ消息事务

       RocketMQ 就很好的支持了消息事务,让我们来看一下如何通过消息实现事务。     

      第一步先给 Broker 发送事务消息即半消息,半消息不是说一半消息,而是这个消息对消费者来说不可见,然后发送成功后,发送方再执行本地事务。

      再根据本地事务的结果向 Broker 发送 Commit 或者 RollBack 命令。     

      并且 RocketMQ 的发送方会提供一个反查事务状态接口,如果一段时间内半消息没有收到任何操作请求,那么 Broker 会通过反查接口得知发送方事务是否执行成功,然后执行 Commit 或者 RollBack 命令。

      如果是 Commit 那么订阅方就能收到这条消息,然后再做对应的操作,做完了之后再消费这条消息即可

      如果是 RollBack 那么订阅方收不到这条消息,等于事务就没执行过。

      可以看到通过 RocketMQ 还是比较容易实现的,RocketMQ 提供了事务消息的功能,我们只需要定义好事务反查接口即可。

        

 可以看到消息事务实现的也是最终一致性。

七、最大努力通知

       其实我觉得本地消息表也可以算最大努力,事务消息也可以算最大努力。

       就本地消息表来说会有后台任务定时去查看未完成的消息,然后去调用对应的服务,当一个消息多次调用都失败的时候可以记录下然后引入人工,或者直接舍弃。这其实算是最大努力了。       

       事务消息也是一样,当半消息被commit了之后确实就是普通消息了,如果订阅者一直不消费或者消费不了则会一直重试,到最后进入死信队列。其实这也算最大努力。

        所以最大努力通知其实只是表明了一种柔性事务的思想:我已经尽力我最大的努力想达成事务的最终一致了。

        适用于对时间不敏感的业务,例如短信通知。

八、总结       

       可以看出 2PC 和 3PC 是一种强一致性事务,不过还是有数据不一致,阻塞等风险,而且只能用在数据库层面。

       而 TCC 是一种补偿性事务思想,适用的范围更广,在业务层面实现,因此对业务的侵入性较大,每一个操作都需要实现对应的三个方法。

       本地消息、事务消息和最大努力通知其实都是最终一致性事务,因此适用于一些对时间不敏感的业   

       

 九、方案对比

 十、心得

        实际项目中,能不用分布式事务就不要用分布式事务。尽可能把分布式事务在业务拆分的时候,就拆分为本地事务,本地事务用自己的数据库,数据库本身是原子性的。实际应用比如(分库分表)。

        如果必须用分布式事务,就选TCC或者尽最大努力通知(MQ)。TCC最大的特点就是能手动控制事务,MQ用于支持高吞吐量,性能很高。

        用上分布式事务就不要谈性能高不高,因为请求都会等待,所以用分布式事务后,性能都高不到那里去。所以在项目设计之初,就要避免使用分布式事务,尽可能把业务拆碎,用本地事务来处理。减少网络请求等等中间等待状态。

posted on 2023-10-27 17:12  木乃伊人  阅读(11)  评论(0编辑  收藏  举报

导航