kafka 零拷贝

感情是可以磨合的，前提是，看脸。

零拷贝

零拷贝并不是不需要拷贝，而是减少不必要的拷贝次数。通常是说在 IO 读写过程中。

实际上，零拷贝是有广义和狭义之分，目前我们通常听到的零拷贝，包括上面这个定义减少不必要的拷贝次数都是广义上的零拷贝。其实了解到这点就足够了。

我们知道，减少不必要的拷贝次数，就是为了提高效率。那零拷贝之前，是怎样的呢？

传统的IO流程实现方式：

　　先读取、再发送，实际经过 1~4 四次 copy。

传统的过程是：

　　第一次：将磁盘文件，读取到操作系统内核缓冲区；

　　第二次：将内核缓冲区的数据，copy 到 application 应用程序的 buffer；

　　第三步：将 application 应用程序 buffer 中的数据，copy 到 socket 网络发送缓冲区(属于操作系统内核的缓冲区)；

　　第四次：将 socket buffer 的数据，copy 到网卡，由网卡进行网络传输。

传统方式，读取磁盘文件并进行网络发送，经过的四次数据 copy 是非常繁琐的。实际 IO 读写，需要进行 IO 中断，需要 CPU 响应中断(带来上下文切换)，尽管后来引入 DMA 来接管 CPU 的中断请求，但四次 copy 是存在“不必要的拷贝”的。

kafka 零拷贝

　　kafka 作为 MQ 也好，作为存储层也好，无非是两个重要功能，一是 Producer 生产的数据存到 broker，二是 Consumer 从 broker 读取数据；我们把它简化成如下两个过程：

　　1、网络数据持久化到磁盘 (Producer 到 Broker)

　　2、磁盘文件通过网络发送（Broker 到 Consumer）

数据写入

　　Kafka 会把收到的消息都写入到硬盘中，它绝对不会丢失数据。为了优化写入速度 Kafka 采用了两个技术，顺序写入和 MMFile（Memory Mapped File）- 内存映射文件。

　　（Memory Mapped Files(后面简称 mmap)也被翻译成内存映射文件，在 64 位操作系统中一般可以表示 20G 的数据文件，它的工作原理是直接利用操作系统的 Page 来实现文件到物理内存的直接映射）

过程：Kafka 把所有的消息都存放在一个一个的文件中，当消费者需要数据的时候 Kafka 直接把文件发送给消费者，配合 mmap 作为文件读写方式，直接把它传给 Sendfile。

kafka 总结

　　1、partition 顺序读写，充分利用磁盘特性，这是基础；

　　2、Producer 生产的数据持久化到 broker，采用 mmap 文件映射，实现顺序的快速写入；

　　3、Customer 从 broker 读取数据，采用 sendfile，将磁盘文件读到 OS 内核缓冲区后，直接转到 socket buffer 进行网络发送。

posted @ 2022-08-24 09:09 方达达阅读(63) 评论(0) 收藏举报

刷新页面返回顶部

方达达