Kafka - kafka为啥这么快？（基于磁盘存储的，为何还能拥有高性能）

总结

1.顺序读写

磁盘读写有两种方式：顺序读写或者随机读写。Kafka 是磁盘顺序读写，利用了一种分段式的、只追加 (Append-Only) 的日志，基本上把自身的读写操作限制为顺序 I/O，磁盘的顺序读写速度和内存持平（见图1.1）。
kafka topic的每一个 Partition 其实都是一个文件，收到消息后 Kafka 会把数据插入到文件末尾（虚框部分）（见图1.2）。这种方法采用了只读设计，所以 Kafka 是不会修改、删除数据的，它会把所有的数据都保留下来，每个消费者（Consumer）对每个 Topic 都有一个 offset 用来表示读取到了第几条数据。（见图1.3）

（图1.1）：顺序访问磁盘的速度，比随机访问内存的还要高！

（图1.2）：（图1.3）：

2.页缓存

即便是顺序写入硬盘，硬盘的访问速度（作者注：这里应该指的是交互速度）还是不可能追上内存。kafka通过 mmap（Memory Mapped Files）技术，将磁盘文件的数据映射到 PageCache 页缓存 ，用户通过修改 PageCache 页缓存就能（在操作系统在适当的时候）同步到磁盘文件。

mmap 也有一个很明显的缺陷：不可靠，写到 mmap 中的数据并没有被真正的写到硬盘，操作系统会在程序主动调用 flush 的时候才把数据真正的写到硬盘。Kafka 提供了一个参数 producer.type 来控制是不是主动 flush。

3.零拷贝

Kafka 通过利用 Java 的 NIO 框架，尤其是 java.nio.channels.FileChannel 里的 transferTo 这个方法。此方法能够在不借助"用户态 Application context" 的情况下，将字节数据在 “内核态 Kernel context” 从源通道直接传输到接收通道。

注：transferTo 和 transferFrom 并不保证一定能使用零拷贝，需要操作系统支持

参考文献

聊聊 Kafka：Kafka 为啥这么快？：https://baijiahao.baidu.com/s?id=1710624455165799096&wfr=spider&for=pc

Kafka高性能之页缓存（page cache）使用：https://blog.csdn.net/LINBE_blazers/article/details/112444245

posted on 2023-07-21 17:02 frank_cui 阅读(203) 评论(0) 收藏举报

刷新页面返回顶部

Kafka - kafka为啥这么快？（基于磁盘存储的，为何还能拥有高性能）

总结

1.顺序读写

2.页缓存

3.零拷贝

参考文献

导航

公告