Kafk为什么这么快

主要基于从kafka0.11.0版本开始之后的版本进行描述

1、批处理
传统消息中间件，一次只发送单挑消息；kafka，一次发送多条消息，微批处理。

生产者发送消息，需要2次rpc:
         发送消息；
         broker返回ACK信号，表示已经接收消息；
消费者消费消息，3次rpc:
         消费者请求接收消息；
         broker返回消息；
         消费者返回ACK信号，表示已经消费

2、客户端优化
新版客户端摒弃单线程，采用双线程模式——主线程+Sender线程。
主线程负责将消息置入客户端缓存(缓存会将多个消息聚合为1个批次)；Sender线程将缓存中聚合好的批次消息发送到Broker。

3、日志消息格式设计优良
新版本(从kafka 0.11.0版本开始)的日志消息格式，引用了变长字段Varints和ZigZag编码，有效降低了附加字段占用的空间，降低了网络传输、日志存盘占用开销。

4、消息压缩
Kafka支持多种消息压缩方式（gzip、snappy、lz4）。对消息进行压缩可以极大地减少网络传输量、降低网络 I/O，从而提高整体的性能。消息压缩是一种使用时间换空间的优化方式，如果对时延有一定的要求，则不推荐对消息进行压缩。

5、分区
kafak对消息进行分区，提高了数据生产与消费的并行度，有效的提升了数据的吞吐量。

注：一昧地增加分区并不能一直带来性能的提升，详细参考[Kafka主题中的分区数越多吞吐量就越高](https://mp.weixin.qq.com/s?__biz=MzU0MzQ5MDA0Mw==&mid=2247484320&idx=1&sn=eee3caea1f28b180cf68d3469bb7d4f2&chksm=fb0be934cc7c6022cd2244ceb58b821d3fe0dc518eca1b29c4764f7d42cf2627a418bfbbf9f2&scene=21#wechat_redirect)

6、索引
kafka为每个日志分段文件提供了2个索引文件(偏移量索引文件.index、时间戳索引文件.timeindex)，提高了消息的查询效率

7、顺序写盘
Kafka 在设计时采用了文件追加的方式来写入消息，即只能在日志文件的尾部追加新的消息，并且也不允许修改已写入的消息，这种方式属于典型的顺序写盘的操作，而操作系统可以针对线性读写做深层次的优化，比如预读(read-ahead，提前将一个比较大的磁盘块读入内存) 和后写(write-behind，将很多小的逻辑写操作合并起来组成一个大的物理写操作)技术，所以就算 Kafka 使用磁盘作为存储介质，它所能承载的吞吐量也不容小觑。

8、页缓存
Kafka 中大量使用了页缓存，这是 Kafka 实现高吞吐的重要因素之一。
页缓存是操作系统实现的一种主要的磁盘缓存，采用页缓存的主要优点：

   （1）减少对磁盘 I/O 的操作(具体来说，就是把磁盘中的数据缓存到内存中，把对磁盘的访问变为对内存的访问)
   （2）维护页缓存和文件之间的一致性交由操作系统来负责，比进程内维护更加安全有效

8、零拷贝
Kafka使用了Zero Copy技术提升了消费的效率。前面所说的Kafka将消息先写入页缓存，如果消费者在读取消息的时候如果在页缓存中可以命中，那么可以直接从页缓存中读取，这样又节省了一次从磁盘到页缓存的copy开销。

什么是Zero-Copy？

附录：
(1)磁盘IO流程图

参考：
(1)https://mp.weixin.qq.com/s/G5nfLpPOr80pk1sHzrLuOA

posted @ 2020-05-02 16:15 XSmileSmile 阅读(324) 评论(0) 编辑收藏举报

刷新页面返回顶部

hxuhongming

Kafk为什么这么快

主要基于从kafka0.11.0版本开始之后的版本进行描述

公告