在使用 MQ 的时候，怎么确保消息 100% 不丢失？

案例背景
- 分析
- 解决方案
  - 消息丢失的环节
  - 消息检测
怎么解决消息被重复消费的问题？
- 分析
- 解决方案
全局ID生成策略
消息积压
- 分析
- 解决方案

这个问题在实际工作中很常见，既能考察候选者对于 MQ 中间件技术的掌握程度，又能很好地区分候选人的能力水平。接下来从这个问题出发，探讨应该掌握的基础知识和答题思路，以及延伸的面试考点。

案例背景

以京东系统为例，用户在购买商品时，通常会选择用京豆抵扣一部分的金额，在这个过程中，交易服务和京豆服务通过 MQ 消息队列进行通信。在下单时，交易服务发送“扣减账户 X 100 个京豆”的消息给 MQ 消息队列，而京豆服务则在消费端消费这条命令，实现真正的扣减操作。

分析

引入 MQ 消息中间件最直接的目的：做系统解耦合流量控制，解决互联网系统的高可用和高性能问题。

系统解耦：用 MQ 消息队列，可以隔离系统上下游环境变化带来的不稳定因素。
京豆服务的系统需求无论如何变化，交易服务不用做任何改变，即使当京豆服务出现故障，主交易流程也可以将京豆服务降级，实现交易服务和京豆服务的解耦，做到了系统的高可用。
流量控制：遇到秒杀等流量突增的场景，通过 MQ 还可以实现流量的“削峰填谷”的作用，可以根据下游的处理能力自动调节流量。

引入 MQ 也会带来其他问题：

实现了系统解耦，会影响系统之间数据传输的一致性。
解决流量控制，会使消费端处理能力不足从而导致消息积压。

问题的几个要点：

哪些环节可能丢消息？
如何知道有消息丢失？
如何确保消息不丢失？

解决方案

消息丢失的环节

一条消息从生产到消费完成这个过程，可以划分三个阶段：消息生产阶段，消息存储阶段和消息消费阶段。

消息生产阶段：从消息被生产出来，然后提交给 MQ 的过程中，只要能正常收到 MQ Broker 的 ack 确认响应，就表示发送成功，所以只要处理好返回值和异常，这个阶段是不会出现消息丢失的。
消息存储阶段：这个阶段一般会直接交给 MQ 消息中间件来保证，Broker 会做副本，保证一条消息至少同步两个节点再返回 ack。
消息消费阶段：消费端从 Broker 上拉取消息，只要消费端在收到消息后，不立即发送消费确认给 Broker，而是等到执行完业务逻辑后，再发送消费确认，也能保证消息的不丢失。

方案每个阶段都能保证消息的不丢失，但在分布式系统中，故障不可避免，作为消息生产端并不能保证 MQ 是不是弄丢了消息，所以还是需要一种机制来检查消息是否丢失了。

消息检测

总体方案解决思路：在消息生产端，给每个发出的消息都指定一个全局唯一 ID，或者附加一个连续递增的版本号，然后在消费端做对应的版本校验。

利用拦截器机制实现：

在生产端发送消息之前，通过拦截器将消息版本号注入消息中（版本号可以采用连续递增的 ID 生成，也可以通过分布式全局唯一 ID生成）。
然后在消费端收到消息后，再通过拦截器检测版本号的连续性或消费状态。
这样实现的好处是消息检测的代码不会侵入到业务代码中，可以通过单独的任务来定位丢失的消息，做进一步的排查。

怎么解决消息被重复消费的问题？

回答完“如何确保消息不会丢失？” 之后，面试官通常会追问“怎么解决消息被重复消费的问题？”

分析

在消息消费的过程中，如果出现失败的情况，通过补偿的机制发送方会执行重试，重试的过程就有可能产生重复的消息。

解决方案

在数据库中建一张消息日志表，这个表有两个字段：消息 ID 和消息执行状态。将消费消息的逻辑变为：在消息日志表中增加一条消息记录，然后再根据消息记录，异步操作更新用户京豆余额。

每次都会在插入之前检查是否消息已存在，所以就不会出现一条消息被执行多次的情况，这样就实现了一个幂等的操作。

全局ID生成策略

想要解决“消息丢失”和“消息重复消费”的问题，有一个前提条件就是要实现一个全局唯一 ID 生成的技术方案，这也是面试官喜欢考察的问题。

在分布式系统中，全局唯一 ID 生成的实现方法有数据库自增主键、Redis、UUID、Twitter-Snowflake 算法。

自动增长列

优点：数据库自带功能，有序，性能佳。
缺点：单库单表无妨，分库分表时如果没有规划，ID可能重复。

解决方案：
1、设置自增偏移和步长

### 假设总共有 10 个分表
### 级别可选: SESSION(会话级), GLOBAL(全局)
SET @@SESSION.auto_increment_offset = 1; ### 起始值, 分别取值为 1~10
SET @@SESSION.auto_increment_increment = 10; ### 步长增量

如果采用该方案，在扩容时需要迁移已有数据至新的所属分片。

2、全局ID映射表
在全局 Redis 中为每张数据表创建一个 ID 的键，记录该表当前最大 ID；
每次申请 ID 时，都自增 1 并返回给应用；
Redis 要定期持久至全局数据库。

UUID(128位)

在一台机器上生成的数字，它保证对在同一时空中的所有机器都是唯一的。通常平台会提供生成UUID的API。
UUID 由4个连字号(-)将32个字节长的字符串分隔后生成的字符串，总共36个字节长。形如：550e8400-e29b-41d4-a716-446655440000。
UUID 的计算因子包括：以太网卡地址、纳秒级时间、芯片ID码和许多可能的数字。
UUID 是个标准，其实现有几种，最常用的是微软的 GUID(Globals Unique Identifiers)。

优点：简单，全球唯一；
缺点：存储和传输空间大，无序，性能欠佳。

Snowflake(雪花) 算法

Snowflake 是 Twitter 开源的分布式 ID 生成算法，其结果为 long(64bit) 的数值。
其特性是各节点无需协调、按时间大致有序、且整个集群各节点单不重复。
该数值的默认组成如下(符号位之外的三部分允许个性化调整)：

1bit: 符号位，总是 0(为了保证数值是正数)。
41bit: 毫秒数(可用 69 年)；
10bit: 节点ID(5bit数据中心 + 5bit节点ID，支持 32 * 32 = 1024 个节点)
12bit: 流水号(每个节点每毫秒内支持 4096 个 ID，相当于 409万的 QPS，相同时间内如 ID 遇翻转，则等待至下一毫秒)

几种方案的特点

消息积压

除了“怎么解决消息被重复消费的问题？”之外，面试官还会问到“消息积压”。

原因在于消息积压反映的是性能问题，解决消息积压问题，可以说明候选者有能力处理高并发场景下的消费能力问题。

分析

如果出现积压，那一定是性能问题，想要解决消息从生产到消费上的性能问题，就首先要知道哪些环节可能出现消息积压，然后在考虑如何解决。

因为消息发送之后才会出现积压的问题，所以和消息生产端没有关系，又因为绝大部分的消息队列单节点都能达到每秒钟几万的处理能力，相对于业务逻辑来说，性能不会出现在中间件的消息存储上面。所以出问题的肯定是消息消费阶段。

解决方案

从消费端入手：

如果是线上突发问题，要临时扩容，增加消费端的数量，与此同时，降级一些非核心的业务。
通过扩容和降级承担流量，表明了对应急问题的处理能力。
其次排查解决异常问题，如通过监控，日志等手段分析是否消费端的业务逻辑代码出现了问题，优化消费端的业务处理逻辑。
如果是消费端的处理能力不足，可以通过水平扩容来提供消费端的并发处理能力。
注意在kafka中在扩容消费者的实例数的同时，必须同步扩容主题 Topic 的分区数量，确保消费者的实例数和分区数相等。如果消费者的实例数超过了分区数，由于分区是单线程消费，所以这样的扩容就没有效果。

posted @ 2022-03-17 16:09 当康阅读(337) 评论(1) 编辑收藏举报

刷新页面返回顶部

当康

在使用 MQ 的时候，怎么确保消息 100% 不丢失？

案例背景

分析

解决方案

消息丢失的环节

消息检测

怎么解决消息被重复消费的问题？

分析

解决方案

全局ID生成策略

自动增长列

UUID(128位)

Snowflake(雪花) 算法

消息积压

分析

解决方案

公告