分布式系统一致性理论和实践

ACID 理论

关系型数据库具有解决复杂事务场景的能力，关系型数据库的事务满足 ACID 的特性。

Atomicity：原子性（要么都做，要么都不做）
Consistency：一致性（数据库只有一个状态，不存在未确定状态）
Isolation：隔离性（事务之间互不干扰）
Durability： 永久性（事务一旦提交，数据库记录永久不变）

具有 ACID 特性的数据库支持数据的强一致性，保证了数据本身不会出现不一致。

CAP 理论(强调分区容错性)

CAP 是指在一个分布式系统下，包含三个要素：Consistency（一致性）、Availability（可用性）、Partition tolerance（分区容错性），并且三者不可得兼。

C：Consistency，一致性，所有数据变动都是同步的。
A：Availability，可用性，即在可以接受的时间范围内正确地响应用户请求。
P：Partition tolerance，分区容错性，即某节点或网络分区故障时，系统仍能够提供满足一致性和可用性的服务。

关系型数据库单节点保证了数据强一致性（C）和可用性（A），但是却无法保证分区容错性（P）。

然而在分布式系统下，为了保证模块的分区容错性（P），只能在数据强一致性（C）和可用性（A）之间做平衡。具体表现为在一定时间内，可能模块之间数据是不一致的，但是通过自动或手动补偿后能够达到最终的一致。

BASE 理论(强调可用性)

BASE 理论主要是解决 CAP 理论中分布式系统的可用性和一致性不可兼得的问题。BASE 理论包含以下三个要素：

BA：Basically Available，基本可用。
- 比如我们在淘宝上搜索商品，正常情况下是在 0.5s 内返回查询结果，但是由于后端的系统故障导致查询响应时间变成了 2s。
- 比如数据库采用分片模式，100W 个用户数据分在 5 个数据库实例上，如果破坏了一个实例，那么可用性还有 80%，也就是 80% 的用户都可以登录，系统仍然可用。
- 电商大促时，为了应对访问量激增，部分用户可能会被引导到降级页面，服务层也可能只提供降级服务。这就是损失部分可用性的体现。　　
S：Soft State，软状态，状态可以有一段时间不同步。
E：Eventually Consistent，最终一致，最终数据是一致的就可以了，而不是时时保持强一致。

BASE 模型与 ACID 不同，满足 CAP 理论，通过牺牲强一致性来保证系统可用性。由于牺牲了强一致性，系统在处理请求的过程中，数据可以存在短时的不一致。

系统在处理业务时，记录每一步的临时状态。当出现异常时，根据状态判断是否继续处理请求或者退回原始状态，从而达到数据的最终一致。

二阶段提交协议

X/Open DTP（Distributed Transaction Process）是一个分布式事务模型，此模型主要使用二阶段提交（2PC，Two-Phase-Commit）来保证分布式事务的完整性。在这个模型里面，有三个角色：

AP：Application，应用程序，业务层。
RM：Resource Manager，资源管理器，关系型数据库或支持 XA 接口（XA 规范是 X/Open 组织定义的分布式事务规范）的组件。
TM： Transaction Manager ，事务管理器，负责各个 RM 的提交和回滚。

当应用程序（AP）调用了事务管理器（TM）的提交方法时，事务的提交分为两个阶段实行。

第一阶段（准备阶段）

TM 通知所有参与事务的各个 RM，给每个 RM 发送 prepare 消息。

RM 接收到消息后进入准备阶段后，要么直接返回失败，要么创建并执行本地事务，写本地事务日志（redo 和 undo 日志），但是不提交（此处只保留最后一步耗时最少的提交操作给第二阶段执行）。

第二阶段（提交 / 回滚阶段）

TM 收到 RM 准备阶段的失败消息或者获取 RM 返回消息超时，则直接给 RM 发送回滚（rollback）消息，否则发送提交（commit）消息。

RM 根据 TM 的指令执行提交或者回滚，执行完成后释放所有事务处理过程中使用的锁（最后阶段释放锁）。

二阶段提交的利弊

考虑数据库事务的执行实际上是先将执行操作写入binlog，等到最后通过一个commit指令将binlog的内容一次更新到表中，或者写到一半通过一个rollback指令将binlog中的内容回滚。可以想到使用2个阶段来执行这个过程，第一阶段，写入binlog；第二阶段执行commit或者rollback。这就是著名的两阶段提交协议（2PC）。如果仔细考虑，会发现两阶段协议并没有解决问题，只不过降低了出错的概率而已，因为第二阶段同样存在一个提交成功一个被回滚，已提交的无法被回滚的情况。注意最终状态是多台机器的状态&&求与的结果。

优点

2PC 提供了一套完整的分布式事务的解决方案，遵循事务严格的 ACID 特性。

缺点

TM 通过 XA 接口与各个 RM 之间进行数据交互，从第一阶段的准备阶段，业务所涉及的数据就被锁定，并且锁定跨越整个提交流程。在高并发和涉及业务模块较多的情况下对数据库的性能影响较大。
二阶段是反可伸缩模式的，业务规模越大，涉及模块越多，局限性越大，系统可伸缩性越差。
在技术栈比较杂的分布式应用中，存储组件有很多不支持 XA 协议。

二阶段的诸多弊端，导致分布式系统下无法直接使用此方案来解决数据一致性问题，但它提供了解决分布式系统下数据一致性问题的思路。

可靠消息最终一致性-消息事务

可靠消息最终一致性方案本质上是利用 MQ 组件实现的二阶段提交。此方案涉及 3 个模块：

上游应用，执行业务并发送 MQ 消息。
可靠消息服务和 MQ 消息组件，协调上下游消息的传递，并确保上下游数据的一致性。
下游应用，监听 MQ 的消息并执行自身业务。

上游应用执行业务并发送 MQ 消息（第一阶段）

上游应用将本地业务执行和消息发送绑定在同一个本地事务中，保证本地操作成功并发送 MQ 消息，否则两步操作都失败并回滚。

上游应用发送待确认消息到可靠消息系统
可靠消息系统保存待确认消息并返回
上游应用执行本地业务
上游应用通知可靠消息系统确认业务已执行并发送消息。
可靠消息系统修改消息状态为发送状态并将消息投递到 MQ 中间件。

以上每一步都可能出现失败情况，分析一下这 5 步出现异常后上游业务和消息发送是否一致：

上游应用执行完成，下游应用尚未执行或执行失败时，此事务即处于 BASE 理论的 Soft State 状态。

下游应用监听 MQ 消息并执行业务（第二阶段）

下游应用监听 MQ 消息并执行业务，并且将消息的消费结果通知可靠消息服务。

可靠消息的状态需要和下游应用的业务执行保持一致，可靠消息状态不是已完成时，确保下游应用未执行，可靠消息状态是已完成时，确保下游应用已执行。

下游应用监听 MQ 消息组件并获取消息
下游应用根据 MQ 消息体信息处理本地业务
下游应用向 MQ 组件自动发送 ACK 确认消息被消费
下游应用通知可靠消息系统消息被成功消费，可靠消息将该消息状态更改为已完成。

以上每一步都可能出现失败情况，分析一下这 4 步出现异常后下游业务和消息状态是否一致：

通过分析以上两个阶段可能失败的情况，为了确保上下游数据的最终一致性，在可靠消息系统中，需要开发消息状态确认和消息重发两个功能以实现 BASE 理论的 Eventually Consistent 特性。

消息状态确认：

可靠消息服务定时监听消息的状态，如果存在状态为待确认并且超时的消息，则表示上游应用和可靠消息交互中的步骤 4 或者 5 出现异常。

可靠消息查询超时的待确认状态的消息
向上游应用查询业务执行的情况
业务未执行，则删除该消息，保证业务和可靠消息服务的一致性。业务已执行，则修改消息状态为已发送，并发送消息到 MQ 组件。

消息重发：

消息已发送则表示上游应用已经执行，接下来则确保下游应用也能正常执行。

可靠消息服务发现可靠消息服务中存在消息状态为已发送并且超时的消息，则表示可靠消息服务和下游应用中存在异常的步骤，无论哪个步骤出现异常，可靠消息服务都将此消息重新投递到 MQ 组件中供下游应用监听。

下游应用监听到此消息后，在保证幂等性的情况下重新执行业务并通知可靠消息服务此消息已经成功消费，最终确保上游应用、下游应用的数据最终一致性。

可靠消息服务定时查询状态为已发送并超时的消息
可靠消息将消息重新投递到 MQ 组件中
下游应用监听消息，在满足幂等性的条件下，重新执行业务。
下游应用通知可靠消息服务该消息已经成功消费。

通过消息状态确认和消息重发两个功能，可以确保上游应用、可靠消息服务和下游应用数据的最终一致性。

在实际接入过程中，需要引入人工干预功能。比如引入重发次数限制，超过重发次数限制的将消息修改为死亡消息，等待人工干预。

TCC(Try-Confirm-Cancel)-业务补偿类型

业务补偿类型，其基本思想是对每一个业务操作做一个逆操作，一旦成功了，就做正向业务，一旦失败了就做业务的逆操作。通常在业务逻辑简单并且正逆操作清晰的时候用比较好。在技术栈统一的情况下，可选择 TCC 来解决数据一致的方法。

TCC 方案是二阶段提交的另一种实现方式，它涉及 3 个模块，主业务、从业务和活动管理器（协作者）。

第一阶段：主业务服务分别调用所有从业务服务的 try 操作，并在活动管理器中记录所有从业务服务。当所有从业务服务 try 成功或者某个从业务服务 try 失败时，进入第二阶段。

第二阶段：活动管理器根据第一阶段从业务服务的 try 结果来执行 confirm 或 cancel 操作。如果第一阶段所有从业务服务都 try 成功，则协作者调用所有从业务服务的 confirm 操作，否则，调用所有从业务服务的 cancel 操作。

在第二阶段中，confirm 和 cancel 同样存在失败情况，所以需要对这两种情况做异常处理以保证数据一致性。

Confirm 失败：则回滚所有 confirm 操作并执行 cancel 操作。
Cancel 失败：从业务服务需要提供自动 cancel 机制，以保证 cancel 成功。

基于 HTTP 协议的 TCC 实现：

主业务服务调用从业务服务的 try 操作，并获取 confirm/cancel 接口和超时时间。
如果从业务都 try 成功，主业务服务执行本地业务，并将获取的 confirm/cancel 接口发送给活动管理器，活动管理器会顺序调用从业务 1 和从业务 2 的 confirm 接口并记录请求状态，如果请求成功，则通知主业务服务提交本地事务。如果 confirm 部分失败，则活动管理器会顺序调用从业务 1 和从业务 2 的 cancel 接口来取消 try 的操作。
如果从业务部分或全部 try 失败，则主业务直接回滚并结束，而 try 成功的从业务服务则通过定时任务来处理处于 try 完成但超时的数据，将这些数据做回滚处理保证主业务服务和从业务服务的数据一致。

通常在核心业务上有很多附加业务，比如当用户支付完成后，需要通过短信通知用户支付成功。这一类业务的成功或者失败不会影响核心业务，甚至很多大型互联网平台在并高并发的情况下会主动关闭这一类业务以保证核心业务的顺利执行。那么怎么处理这类情况呢，来看看最大努力通知方案。

最大努力通知-消息重试&查询补偿

最大努力通知方案涉及三个模块：

上游应用，发消息到 MQ 队列。
下游应用（例如短信服务、邮件服务），接受请求，并返回通知结果。
最大努力通知服务 监听消息队列，将消息存储到数据库中，并按照通知规则调用下游应用的发送通知接口。

最大努力通知服务表示在不影响主业务的情况下，尽可能地确保数据的一致性。它需要开发人员根据业务来指定通知规则，在满足通知规则的前提下，尽可能的确保数据的一致，以尽到最大努力的目的。

上游应用发送 MQ 消息到 MQ 组件内，消息内包含通知规则和通知地址
最大努力通知服务监听到 MQ 内的消息，解析通知规则并放入延时队列等待触发通知
最大努力通知服务调用下游的通知地址，如果调用成功，则该消息标记为通知成功，如果失败则在满足通知规则（例如 5 分钟发一次，共发送 10 次）的情况下重新放入延时队列等待下次触发。

典型的场景是向银行发送了转账请求未得到明确的成功失败返回码，此时先做业务结果的查询，根据结果做相应处理，比如查询结果成功，则置状态为成功，查询结果失败，则做相应的业务补偿，查询结果为未知，则继续查询。

posted @ 2017-10-23 15:31 wade&luffy 阅读(851) 评论(0) 编辑收藏举报

刷新页面返回顶部

wade&luffy

生活最主要的还是感受，坚持是一种刻意的练习，不断寻找缺点突破缺点的过程，而不是重复做某件事情。