Kafka - Kafka 消费者 + 再平衡Rebalance

一、kafka消费方式

kafka采取pull（拉）模式

二、消费者总体工作流程

老版本0.9之前，offset保存在zookeeper上。

新版本1.0后，每个消费者的offset又消费者提交到系统主题保存。

三、消费者组原理

3.1 原理简介

3.2 消费者组初始化过程

四、消费者API

4.1 独立消费者案例

1）消费者消费某主题 - subscribe()

代码示例：

2）消费者消费某主题的特定分区 - assign()

下图，展示该消费者，消费first主题，指定的0号分区

4.2 消费者组案例

三个消费者，都是在test消费者组中

五、分区分配策略 + 再平衡

请参加更佳详细专业的博客：【kafka】Kafka消费者分区分配策略详解

以下截图是B站讲解，讲了个大概，不详细。

5.1 Range策略 - 针对每个topic

正常情况

再平衡策略

前提：session.timeout.ms = 45, 一旦消费者和coordinators失去联系超过45s，该消费者就会下线

情况1：当消费者0突然下线，但还没超时45s 时，且此时发送者又发送了数据。此时分区0，1，2的数据无法抵达消费者0,也不会去消费者consumer 1，consumer 2。但等过了45s后，0，1，2分区的数据会全部涌进消费者consumer 1里。

情况2：当消费者0下线超过45s，会被下线。消费者只剩下consumer 1，consumer 2. 如果此时发送者发送数据，这时剩下的两个消费者会重新划分分区：consumer 1 接受 0，1，2，3；consumer 2 接受 4，5，6 。

5.2 RoundRobin策略 - 针对所有topic

正常情况

再平衡策略

情况1：当消费者1突然下线，但还没超时45s 时，且此时发送者又发送了数据。此时分区0，3，6的数据无法抵达消费者0, 也不会去消费者consumer 2，consumer 3。但等过了45s后，0，3，6这三个分区依然遵循轮询的办法，把0，6分区放进其中一个consumer，3分区去另一个consumer。

情况2：当消费者1下线超过45s，会被下线。消费者只剩下consumer 2，consumer 3. 如果此时发送者发送数据，这时剩下的两个消费者会重新划分分区：consumer 2 接受 0，2，4，6；consumer 3 接受 1，3，5 。

5.3 Sticky策略

所以如果使用默认的轮询partition策略，可能会造成一个大的batch被轮询成多个小的batch的情况，鉴于小batch可能导致延时增加。鉴于此，kafka2.4的时候推出一种新的分区策略，即StickyPartitioning Strategy，StickyPartitioning Strategy会随机地选择另一个分区并会尽可能地坚持使用该分区——即所谓的粘住这个分区。该策略是一种全新的策略，能够显著地降低给消息指定分区过程中的延时。使用StickyPartitioner有助于改进消息批处理，减少延迟，并减少broker的负载。

分区的分配要尽可能的均匀，分配给消费者者的主题分区数最多相差一个；

分区的分配尽可能的与上次分配的保持相同。

可以看到，虽然range和sticky都是分成了三组3-2-2组合，但是range是先排序再分组，而sticky是随机的