kafka01-初识kafka

1、kafka简介

Kafka起初是由Linkedin公司采用Scala语言开发的一个多分区、多副本且基于ZooKeeper协调的分布式消息系统，现己被捐献给Apache基金会。
目前Kafka是一个分布式流式处理平台，它以高吞吐、可持久化、可水平扩展、支持流数据处理等多种特性而被广泛使用。
越来越多的开源分布式处理系统如Cloudera、Storm、Spark、Flink等都支持与Kafka集成。

Kafka所“扮演”的三大角色：
- 消息系统：Kafka和传统的消息系统（也称作消息中间件〉都具备系统解耦、冗余存储、流量削峰、缓冲、异步通信、扩展性、可恢复性等功能。与此同时，Kafka还提供了大多数消息系统难以实现的消息顺序性保障及回溯消费的功能。
- 存储系统：Kafka把消息持久化到磁盘，相比其他基于内存存储的系统而言，有效地降低了数据丢失的风险。也正是得益于Kafka的消息持久化功能和多副本机制，我们可以把Kafka作为长期的数据存储系统来使用，只需要把对应的数据保留策略设置为“永久”或启用主题的日志压缩功能即可。
- 流式处理平台：Kafka不仅为每个流行的流式处理框架提供了可靠的数据来源，还提供了一个完整的流式处理类库，比如窗口、连接、变换和聚合等各类操作。

2、Kafka体系架构

一个典型的Kafka体系架构包括若干Producer、若干Broker、若干Consumer，以及一个ZooKeeper集群。
- ZooKeeper是Kafka用来负责集群元数据的管理、控制器的选举等操作的。
- Producer将消息发送到Broker。
- Broker负责将收到的消息存储到磁盘中。
- Consumer负责从Broker订阅并消费消息。

1、kafka中的三个术语：

Producer：生产者，也就是发送消息的一方。生产者负责创建消息，然后将其投递到Kafka中。
Consumer：消费者，也就是接收消息的一方。消费者连接到Kafka上并接收消息，进而进行相应的业务逻辑处理。
Broker：服务代理节点。一个或多个Broker组成了一个Kafka集群。
- 对于Kafka而言，Broker可以简单地看作一个独立的Kafka服务节点或Kafka服务实例。
- 大多数情况下也可以将Broker看作一台Kafka服务器，前提是这台服务器上只部署了一个Kafka实例。
- 一般而言，习惯使用首字母小写的broker来表示服务代理节点。

2、ZooKeeper简介

ZooKeeper是一个开源的分布式协调服务，是Google Chubby的一个开源实现。
分布式应用程序可以基于ZooKeeper实现诸如数据发布/订阅、负载均衡、命名服务、分布式协调/通知、集群管理、Master选举、配置维护等功能。
在ZooKeeper中共有3个角色：leader、follower和observer，同一时刻ZooKeeper集群中只会有一个leader，其他的都是follower和observer。
- observer不参与投票，默认情况下ZooKeeper中只有leader和follower两个角色。
ZooKeeper是Kafka集群的必要组件，Kafka通过ZooKeeper来实施对元数据信息的管理，包括集群、broker、主题、分区等内容。

3、kafka中的两个重要概念

1、主题（Topic）

Kafka中的消息以主题为单位进行归类，生产者负责将消息发送到特定的主题（发送到Kafka集群中的每一条消息都要指定一个主题），而消费者负责订阅主题并进行消费。

主题是一个逻辑上的概念，它可以为多个分区。
同一主题下的不同分区包含的消息是不同的。

2、分区（Partition）

一个分区只属于一个主题，所以也会把分区称为主题分区（Topic-Partition）。
分区在存储层面可以看作成一个可追加的日志（Log）文件，消息在被追加到分区日志文件的时候都会分配一个特定的偏移量（offset）。
offset是消息在分区中的唯一标识，Kafka通过它来保证消息在分区内的顺序性，不过offset并不跨越分区，也就是说，Kafka保证的是分区有序而不是主题有序。

主题中有4个分区，消息被顺序追加到每个分区日志文件的尾部。Kafka中的分区可以分布在不同的服务器（broker）上，也就是说，一个主题可以横跨多个broker，以此来提供比单个broker更强大的性能。

1、kafka的负载均衡

每一条消息被发送到broker之前，会根据分区规则选择存储到哪个具体的分区。如果分区规则设定得合理，所有的消息都可以均匀地分配到不同的分区中。（一个消息只会被存储到一个分区中。分区实现了kafka的负载均衡）
如果一个主题只对应一个文件，那么这个文件所在的机器I/O将会成为这个主题的性能瓶颈，而分区解决了这个问题。
在创建主题的时候可以通过指定的参数来设置分区的个数，也可以在主题创建完成之后去修改分区的数量，通过增加分区的数量可以实现水平扩展。

2、kafka的容灾能力

Kafka为分区引入了多副本（Replica）机制，通过增加副本数量可以提升容灾能力。
同一分区的不同副本中保存的消息是相同的（在同一时刻，副本之间并非完全一样）。
副本之间是“一主多从”的关系。
- leader副本负责处理读写请求。
- follower副本只负责与leader副本的消息同步。
- 副本处于不同的broker中，当leader副本出现故障时，从follower副本中重新选举新的leader副本对外提供服务。Kafka通过多副本机制实现了故障的自动转移，当Kafka集群中某个broker失效时仍然能保证服务可用。

Kafka消费端也具备一定的容灾能力。
- Consumer使用拉（Pull）模式从服务端拉取消息，并且保存消费的具体位置，当消费者看机后恢复上线时可以根据之前保存的消费位置重新拉取需要的消息进行消费，这样就不会造成消息丢失。

1、多副本架构

假设Kafka集群中有4个broker，某个主题中有3个分区，且副本因子（即副本个数〉也为3，如此每个分区便有l个leader副本和2个follower副本。
生产者和消费者只与leader副本进行交互，而follower副本只负责消息的同步，很多时候follower副本中的消息相对leader副本而言会有一定的滞后。

2、副本的集合

分区中的所有副本统称为AR(Assigned Replicas）。
所有与leader副本保持一定程度同步的副本（包括leader副本在内〕组成ISR(In-Sync Replicas)，ISR集合是AR集合中的一个子集。
- 消息会先发送到leader副本，然后follower副本才能从leader副本中拉取消息进行同步，同步期间内follower副本相对于leader副本而言会有一定程度的滞后。
- 前面所说的“一定程度的同步”是指可忍受的滞后范围，这个范围可以通过参数进行配置。
与leader副本同步滞后过多的副本（不包括leader副本）组成OSR(Out-of-Sync Replicas）。由此可见，AR=ISR+OSR。

在正常情况下，所有的follower副本都应该与leader副本保持一定程度的同步，即AR=ISR，OSR集合为空。

leader副本负责维护和跟踪ISR集合中所有follower副本的滞后状态，当follower副本落后太多或失效时，leader副本会把它从ISR集合中剔除。如果OSR集合中有follower副本“追上”了leader副本，那么leader副本会把它从OSR集合转移至ISR集合。
默认情况下，当leader副本发生故障时，只有在ISR集合中的副本才有资格被选举为新的leader，而在OSR集合中的副本则没有任何机会（不过这个原则也可以通过修改相应的参数配置来改变）。

3、LEO和HW

LEO是Log End Offset的缩写，它标识当前日志文件中下一条待写入消息的offset，即LEO的大小相当于当前日志分区中最后一条消息的offset值加1。
HW是High Watermark的缩写，俗称高水位，它标识了一个特定的消息偏移量（offset），消费者只能拉取到这个offset之前的消息。
- 分区ISR集合中的每个副本都会维护自身的LEO，而ISR集合中最小的LEO即为分区的HW，对消费者而言只能消费HW之前的消息。

图解LEO和HW

(1)假设某个分区的ISR集合中有3个副本，即一个leader副本和2个follower副本，此时分区的LEO和HW都为3。
(2)消息3和消息4从生产者发出之后会被先存入leader副本。在消息写入leader副本之后，follower副本会发送拉取请求来拉取消息3和消息4以进行消息同步。(在follower副本进行同步前，分区的LEO和HW不变，即都为3)
(3)在同步过程中，不同的follower副本的同步效率也不尽相同。在某一时刻follower1完全跟上了leader副本，而follower2只同步了消息3。
- 此时leader副本的LEO为5，follower1的LEO为5，follower2的LEO为4，那么当前分区的HW会取LEO的最小值，即HW为4。因此消费者可以消费到offset为0至3之间的消息。
(4)当所有的副本都成功写入了消息3和消息4，整个分区的HW和LEO都变为5，此时消费者可以消费到offset为4的消息了

4、Kafka的复制机制

Kafka的复制机制既不是完全的同步复制，也不是单纯的异步复制。
- 同步复制要求所有能工作的follower副本都复制完，这条消息才会被确认为已成功提交，这种复制方式极大地影响了性能。
- 在异步复制方式下，follower副本异步地从leader副本中复制数据，数据只要被leader副本写入就被认为已经成功提交。在这种情况下，如果follower副本都还没有复制完而落后于leader副本，突然leader副本宕机，则会造成数据丢失。
- Kafka使用的这种ISR的方式则有效地权衡了数据可靠性和性能之间的关系。

#                                                                                                                    #

posted @ 2021-10-03 16:00 麦恒阅读(104) 评论(0) 收藏举报

刷新页面返回顶部

麦恒

kafka01-初识kafka

1、kafka简介

2、Kafka体系架构

1、kafka中的三个术语：

2、ZooKeeper简介

3、kafka中的两个重要概念

1、主题（Topic）

2、分区（Partition）

1、kafka的负载均衡

2、kafka的容灾能力

3、LEO和HW

4、Kafka的复制机制

公告