kafka吞吐量测试

除了基本的console-producer和console-consumer脚本可以用于简单测试消息的发送和接收外，kafka还提供了性能吞吐量测试脚本，它们分别是kafka-producer-perf-test.sh和kafka-consumer-perf-test.sh脚本。

一、生产者吞吐量

kafka-producer-perf-test.sh是用于测试生产者吞吐量的，具体命令入下

bin/kafka-producer-perf-test.sh  --topic test_topic --num-records 500000 --record-size 200 --throughput -1 --producer-props 
 bootstrap.servers=localhost:9092,localhost:9093,localhost:9094 acks=1

运行结果：

以上结果说明在这台机器上运行一个kafka producer的吞吐量是3mb/s，即占用带宽是24mb/s,平均每秒发送的17411条数据，平均延时是4.582秒，最大延时是8.337秒，平均有50%的消息发送需要4.305秒，95%需要6.864秒，99%需要7.385秒,99.9需要 8.301秒。

二、消费者吞吐量

kafka-consumer-perf-test.sh是用于测试消费者吞吐量的，具体命令入下

bin/kafka-consumer-perf-test.sh --broker-list localhost:9092,localhost:9093,localhost:9094
 --fetch-size 200 --messages 500000 --topic test_topic

运行结果：

以上是测试消费50万条信息的consumer吞吐量，结果表明，在改环境中consumer在11秒多时间内总共消费了95M的消息，因此吞吐量是8M/s,即占用带宽是64M/s。

三、kafka高性能高吞吐的原因

（1）、磁盘顺序读写：保证了消息的堆积

顺序读写：磁盘会预读，预读即在读取的起始地址连续读取多个页面，主要时间话费在了传输时间上，而这个时间两种读写可以认为是一样的。

随机读写：因为数据没有在一起，将预读的地址浪费掉了。需要多次寻道（磁道）和旋转延迟。而这个时间可能是出传输时间的许多倍。

（2）、零拷贝：避免CPU将数据从一块存储拷贝到另一块存储的技术

【零拷贝：磁盘文件->内核空间读取缓冲区->网卡接口->消费者进程】

传统的数据复制：读取磁盘文件数据到内核缓冲区；将内核缓冲区的数据copy到用户缓冲区；将用户缓冲区的数据copy到socket的发送缓冲区；将

socket发送缓冲区中的数据发送到网卡，进行传输。

（3）、分区分段+索引

kafka的message消息实际上是分布式存储在一个一个小的segment中的，每次文件操作也是直接操作的segment。为了经一部的优化查询，kafka又默认

为分段后的数据文件建立了索引文件，就是文件系统上的.index文件。这种分区分段+索引的设计，不仅提高了读取的效率，同时也提高了数据操作的并行度。

（4）、批量压缩：多条消息一起压缩，降低带宽

（5）、批量读写

（6）、直接操作page cache，而不是jvm、避免GC耗时及对象创建耗时，且读写速度更高，进程重启、缓存也不会丢失。

posted @ 2020-02-26 21:44 炫舞风中阅读(1619) 评论(1) 编辑收藏举报

刷新页面返回顶部

炫舞风中

kafka吞吐量测试

一、生产者吞吐量

二、消费者吞吐量

三、kafka高性能高吞吐的原因

公告