Kafka到底有几个Offset？——Kafka核心之偏移量机制

Kafka是由LinkIn开源的实时数据处理框架，目前已经更新到2.3版本。不同于一般的消息中间件，Kafka通过数据持久化和磁盘读写获得了极高的吞吐量，并可以不依赖Storm，SparkStreaming的流处理平台，自己进行实时的流处理。

Kakfa的Offset机制是其最核心机制之一，由于API对于部分功能的实现，我们有时并没有手动去设置Offset，那么Kafka到底有几个Offset呢？

一、生产者Offset

首先，我们先来看生产者的offset，我们知道Kafka是通过生产者将消息发送给某一个topic，消费者再消费这个topic的消息，当然可能有多个生产者，多个消费者，还可能有消费者组的概念，这个稍后在讨论。

当生产者将消息发送给某一个topic时，要看有多少个分区，因为kafka是通过分区机制实现分布式的。

图生产者offset

通过此图可以清晰的看到生产者的offset原理，不管是多少个生产者，还是我们规定了他们会写入哪一个分区，但只要他们写入的时候，一定是每一个分区都有一个offset，这个offset就是生产者的offset，同时也是这个分区的最新最大的offset。

有些时候我们在开发生产者代码时并没有指定某一个分区的offset，可能是我们使用的单分区，或者默认均匀的写入多个分区，这个工作kafka帮我们完成了。

二、消费者Offset

再来看消费者端offset，要稍微复杂一些。

图消费者offset

这是某一个分区的offset情况，我们已经知道生产者写入的offset是最新最大的值也就是12，而当Consumer A进行消费时，他从0开始消费，一直消费到了9，他的offset就记录在了9，Consumer B就纪录在了11。等下一次他们再来消费时，他们可以选择接着上一次的位置消费，当然也可以选择从头消费，或者跳到最近的记录并从“现在”开始消费。

这样即使有多个分区，消费者也能灵活使用。

图消费者组

消费者组的概念其实并不影响对offset的理解，上面的情况Consumer A，Consumer B如果是同组就不能同时消费一个分区的消息，不同组的消费者可以同时消费一个分区的消息。

还有一种offset的说法，就是consumer消费未提交时，本地是有另外一个offset的，这个offset不一定与集群中记录的offset一致。

所以，kafka每一个topic分区和生产者，消费者不同，是有多个offset的。

总结如下：

offset是指某一个分区的偏移量。

topic partition offset 这三个唯一确定一条消息。

生产者的offset其实就是最新的offset。

消费者的offset是他自己维护的，他可以选择分区最开始，最新，也可以记住他消费到哪了。

消费者组是为了不同组的消费者可以同时消费一个分区的消息。

大数据流动专注于大数据实时计算，数据治理，数据可视化等技术分享与实践。
请在后台回复关键字下载相关资料。相关学习交流群已经成立，欢迎加入~

posted @ 2019-08-27 17:12 独孤风阅读(7038) 评论(0) 收藏举报

刷新页面返回顶部

大数据流动

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~

Kafka到底有几个Offset？——Kafka核心之偏移量机制

一、生产者Offset

二、消费者Offset

公告

大数据流动

公众号 大数据流动。 追随大数据的流动，专注于大数据相关技术。 相关学习交流群已经成立，欢迎加入~

Kafka到底有几个Offset？——Kafka核心之偏移量机制

一、生产者Offset

二、消费者Offset

公告

公众号大数据流动。追随大数据的流动，专注于大数据相关技术。相关学习交流群已经成立，欢迎加入~