为什么Kafka的性能那么好？

Apache Kafka是一个高性能的消息队列，在众多的消息队列产品中，Kafka的性能是处于第一梯队的。

Kafka的高性能主要取决于以下几方面：

接下来，我们展开讨论Kafka是如何利用上述手段提升性能。

使用批量消息提升服务端处理能力

在Kafka内部，消息都是以“批”为单位处理的，Kafka的客户端SDK在实现消息发送逻辑的时候，采用了异步批量发送的机制。

当我们调用send()方法发送一条消息后，无论我们是同步发送还是异步发送，Kafka并不会立刻把这条消息发送出去，它会先把这条消息存放在内存中，然后选择合适的时机把缓存的所有消息组成一批，一次性的发给Broker。

在Broker端，整个处理流程中，无论是写入磁盘、从磁盘读出来、还是复制到其他副本，批消息都不回被解开，一直是作为一条“批消息”进行处理的。

在消费时，消息同样是以批为单位进行传递的，Consumer从Broker拉到一批消息后，在客户端把批消息解开，再一条一条交给用户代码处理。

这样，构建批消息和解开批消息分别在发送端和消费端的客户端完成，不仅减轻了Broker的压力，还减少了Broker处理请求的次数，提升了总体的处理能力。

对于磁盘来说，一个重要特性是顺序读写的性能要远远好于随机读写。

Kafka利用了磁盘这个特性，它的存储设计非常简单，对于每个分区，它把从Producer收到的消息，顺序地写入对应的log文件中，一个文件写完了，就开启一个新的文件继续顺序写下去。消费的时候，也是从某个全局的位置开始，顺序地把消息读出来。

Kafka会利用PageCache加速消息读写。PageCache是操作系统在内存中给磁盘上的文件建立的缓存。无论我们使用什么语言编写的程序，在调用系统的API读写文件的时候，并不会直接去写磁盘上的文件，应用程序实际操作的都是PageCache，也就是文件在内存中缓存的副本。

应用程序在写入文件的时候，操作系统会先把数据写入到内存的PageCache，然后再一批一批地写到磁盘上。

当我们从PageCache中读物数据时，会有两种结果：

PageCache中有数据，可以直接读取，这样就节省了从磁盘上读物数据的时间。
PageCache中没有数据，操作系统会引发一个缺页中断，应用程序的读取线程被阻塞，操作系统把数据从文件中复制到PageCache中，然后应用程序再从PageCache中继续把数据读出来，这时真正读一次磁盘上的文件，这个读的过程会比较慢。

用户的应用程序在使用完某块PageCache后，操作系统并不会立刻就清除这个PageCache，而是尽可能的利用空闲的物理内存保存这些pageCache，除非系统内存不够，操作系统才会清理掉一部分PageCache，清理策略一般是LRC或者它的变种方法。

在服务端，处理消费的逻辑步骤如下：

这个过程中，数据实际上做了2到3次复制：

Kafka使用零拷贝技术把上述复制次数减少一次，上面的第2步和第3步的两次复制合并成一次复制。直接从PageCache中将数据复制到Socket缓冲区，这样不仅减少了一次数据复制，而且由于不用把数据复制到用户内存空间，DMA控制器就可以直接完成数据复制，不需要CPU参与，速度更快。

如果我们遇到这种从文件读出数据后再通过网络发送出去的场景，并且这个过程汇总你必须要对这些数据进行处理，那一定要使用零拷贝方法，可以有效提升性能。

posted @ 2023-03-16 19:27 李潘阅读(461) 评论(0) 编辑收藏举报

刷新页面返回顶部