kafka分区分配策略
kafka中每个主题一般都会有很多个分区,为了及时消费到数据,我们可能会启动很多个消费者去一个消费topic中的数据。每个分区只能由消费组内的一个消费者去消费。那么,同一个消费组内的消费者是如何确定消费哪些分区的数据呢?
kafka内部中存在两种分配策略:Range和RoundRobin。
kafka分配分区的条件:1)同一个消费组内消费者的新增、关闭或崩溃,2)订阅的主题新增分区。
Range:
是对每个主题而言的。首先按照分区序号排序,然后将消费者排序。分区数/消费者数=m,如果m!=0,前m个消费者多消费一个分区(每个主题)
RoundRobin:
使用RoundRobin策略有两个前提条件必须满足:1)同一个Consumer Group里面的所有消费者的num.streams必须相等;2)每个消费者订阅的主题必须相同。
所以这里假设前面提到的2个消费者的num.streams = 2。RoundRobin策略的工作原理:将所有主题的分区组成 TopicAndPartition 列表,然后对 TopicAndPartition 列表按照 hashCode 进行排序,分发给每一个消费者。(其实就是按分区名hash排序后平均分配给每一个消费者的线程)
总结:目前我们还不能自定义分区分配策略,只能通过partition.assignment.strategy
参数选择 range 或 roundrobin。partition.assignment.strategy
参数默认的值是range。