零拷贝

图解Kafka的零拷贝技术到底有多牛？-腾讯云开发者社区-腾讯云 https://cloud.tencent.com/developer/article/1421266

图解Kafka的零拷贝技术到底有多牛？

发布于 2019-05-06 15:58:15

在上一文中“图解Kafka消息是被怎么存储的？”，我们了解了Kafka内部是如何存储数据的，其中我们提到了Kafka之所以那么快的另外一个原因就是零拷贝（zero-copy）技术。本文我们就来了解Kafka中使用的零拷贝技术为什么那么快。

传统的文件拷贝

传统的文件拷贝通常需要从用户态去转到核心态，经过read buffer，然后再返回到用户态的应用层buffer，然后再从用户态把数据拷贝到核心态的socket buffer，然后发送到网卡。如下图所示：

从上图你会发现，传统的数据传输需要多次的用户态和核心态之间的切换，而且还要把数据复制多次，最终才打到网卡。

如果减少了用户态与核心态之间的切换，是不是就会更快了呢？如下图：

此时我们会发现用户态“空空如也”。数据没有来到用户态，而是直接在核心态就进行了传输，但这样依然还是有多次复制。首先数据被读取到read buffer中，然后发到socket buffer，最后才发到网卡。虽然减少了用户态和核心态的切换，但依然存在多次数据复制。

如果可以进一步减少数据复制的次数，甚至没有数据复制是不是就会做到最快呢？

DMA

别急，这里我们先介绍一个新的武器:DMA。

DMA，全称叫Direct Memory Access，一种可让某些硬件子系统去直接访问系统主内存，而不用依赖CPU的计算机系统的功能。听着是不是很厉害，跳过CPU，直接访问主内存。传统的内存访问都需要通过CPU的调度来完成。如下图：

而DMA，则可以绕过CPU，硬件自己去直接访问系统主内存。如下图：

很多硬件都支持DMA，这其中就包括网卡。

零拷贝

回到本文中的文件传输，有了DMA后，就可以实现绝对的零拷贝了，因为网卡是直接去访问系统主内存的。如下图：

Java的零拷贝实现

在Java中的零拷贝实现是在FileChannel中，其中有个方法transferTo(position,fsize,src)。

传统的文件传输是通过java.io.DataOutputStream，java.io.FileInputStream来实现的，然后通过while循环来读取input，然后写入到output中。

零拷贝则是通过java.nio.channels.FileChannel中的transferTo方法来实现的。transferTo方法底层是基于操作系统的sendfile这个system call来实现的（不再需要拷贝到用户态了），sendfile负责把数据从某个fd（file descriptor）传输到另一个fd。

sendfile：

Java的transferTo：

传统方式与零拷贝性能对比

可以看出速度快出至少三倍多。Kafka在文件传输的过程中正是使用了零拷贝技术对文件进行拷贝。建议以后多用FileChannel的transferTo吧。

回顾

传统的文件传输有多次用户态和内核态之间的切换，而且文件在多个buffer之间要复制多次最终才被发送到网卡。
DMA是一种硬件直接访问系统主内存的技术。
多种硬件都已使用了DMA技术，其中就包括网卡（NIC）。
DMA技术让CPU得到解放，让CPU可以不用一直守着来完成文件传输。
零拷贝技术减少了用户态与内核态之间的切换，让拷贝次数降到最低，从而实现高性能。
Kafka使用零拷贝技术来进行文件的传输。

posted @ 2020-08-14 21:10 papering 阅读(556) 评论(0) 收藏举报

刷新页面返回顶部