kafka入门
1.kafka架构
Kafka的整体架构非常简单,是显式分布式架构,producer、broker(kafka)和consumer都可以有多个。Producer,consumer实现Kafka注册的接口,数据从producer发送到broker,broker承担一个中间缓存和分发的作用。broker分发注册到系统中的consumer。broker的作用类似于缓存,即活跃的数据和离线处理系统之间的缓存。客户端和服务器端的通信,是基于简单,高性能,且与编程语言无关的TCP协议。几个基本概念:
1)Topic:特指Kafka处理的消息源(feeds of messages)的不同分类。
2)Partition:Topic物理上的分组,一个topic可以分为多个partition,每个partition是一个有序的队列。partition中的每条消息都会被分配一个有序的id(offset)。
3)Message:消息,是通信的基本单位,每个producer可以向一个topic(主题)发布一些消息。
4)Producers:消息和数据生产者,向Kafka的一个topic发布消息的过程叫做producers。
5)Consumers:消息和数据消费者,订阅topics并处理其发布的消息的过程叫做consumers。
6)Broker:缓存代理,Kafka集群中的一台或多台服务器统称为broker。
2.kafka的特点
1)同时为发布和订阅提供高吞吐量。据了解,Kafka每秒可以生产约25万消息(50 MB),每秒处理55万消息(110 MB)。
2)可进行持久化操作。将消息持久化到磁盘,因此可用于批量消费,例如ETL,以及实时应用程序。通过将数据持久化到硬盘以及replication防止数据丢失。
3) 分布式系统,易于向外扩展。所有的producer、broker和consumer都会有多个,均为分布式的。无需停机即可扩展机器。
4)消息被处理的状态是在consumer端维护,而不是由server端维护。当失败时能自动平衡。
5)支持online和offline的场景。
3.消息发送和接受
1)Producer根据指定的partition方法(round-robin、hash等),将消息发布到指定topic的partition里面
2)kafka集群接收到Producer发过来的消息后,将其持久化到硬盘,并保留消息指定时长(可配置),而不关注消息是否被消费。
3)Consumer从kafka集群pull数据,并控制获取消息的offset