Kafka硬件配置选择
场景:
100万日活(中型公司),每人每天100条日志,每天总共的日志条数是100万 * 100条 = 1亿条。其日志处理速度为:1亿条/24小时/60分/60秒 ≈ 1157条/每秒钟。
假设每条日志大小:0.5k - 2k(取1k), 则:1157条/每秒钟 * 1k ≈ 1m/s 。
高峰期每秒钟(假设平均值20倍):1157条 * 20倍 = 23140条。
每秒多少数据量:23140*1k/1024k ≈ 20MB/s。
1. 服务器台数选择
服务器台数(经验公式) = 2 *(生产者峰值生产速率 * 副本 / 100) + 1 。
= 2 *(20m/s * 2 / 100) + 1
= 3台
建议3台服务器。
2. 磁盘选择
kafka按照顺序读写,因此,机械硬盘和固态硬盘顺序读写速度差不多。
1亿条 * 1k ≈ 100g
100g * 2个副本 * 3天(保存天数)/ 0.7(预留30%的内存) ≈ 1T
建议三台服务器的磁盘大小大于 1T
3. 内存选择
kafka内存 = 堆内存(kafka内部配置,生产环境一般配置10~15g,根据实际需求进行调整)+ 页缓存。
-
堆内存:10~15g,假设取 10g。
-
页缓存:页缓存是Linux系统服务器的内存。我们只需要保证1个segment(1g)中25%的数据在内存中就好。 每个节点页缓存大小 = (分区数 * 1g * 25%)/ 3(节点数)。例如10个分区,页缓存大小=(10 * 1g * 25%)/ 3 ≈ 1g 。
因此,建议一台服务器内存大小要大于 10g + 1g = 11g。
kafka-server-start.sh文件中配置:
if [ $# -lt 1 ];
then
echo "USAGE: $0 [-daemon] server.properties [--override property=value]*"
exit 1
fi
base_dir=$(dirname $0)
if [ "x$KAFKA_LOG4J_OPTS" = "x" ]; then
export KAFKA_LOG4J_OPTS="-Dlog4j.configuration=file:$base_dir/../config/log4j.properties"
fi
if [ "x$KAFKA_HEAP_OPTS" = "x" ]; then
export KAFKA_HEAP_OPTS="-Xmx1G -Xms1G"
fi
EXTRA_ARGS=${EXTRA_ARGS-'-name kafkaServer -loggc'}
查看kafka垃圾回收状态:
[root@-9930 bin]# jstat -gc 21345
S0C S1C S0U S1U EC EU OC OU MC MU CCSC CCSU YGC YGCT FGC FGCT GCT
0.0 2048.0 0.0 2048.0 53248.0 24576.0 993280.0 188416.1 44284.0 40616.0 5628.0 5206.6 8 0.149 0 0.000 0.149
查看kafka堆内存使用情况,可根据内存使用情况进行调整:
[root@-9930 bin]# jmap -heap 21345(进程号PID)
Attaching to process ID 21345, please wait...
Debugger attached successfully.
Server compiler detected.
JVM version is 25.40-b25
using thread-local object allocation.
Garbage-First (G1) GC with 2 thread(s)
Heap Configuration:
MinHeapFreeRatio = 40
MaxHeapFreeRatio = 70
MaxHeapSize = 1073741824 (1024.0MB)
NewSize = 1363144 (1.2999954223632812MB)
MaxNewSize = 643825664 (614.0MB)
OldSize = 5452592 (5.1999969482421875MB)
NewRatio = 2
SurvivorRatio = 8
MetaspaceSize = 21807104 (20.796875MB)
CompressedClassSpaceSize = 1073741824 (1024.0MB)
MaxMetaspaceSize = 17592186044415 MB
G1HeapRegionSize = 1048576 (1.0MB)
Heap Usage:
G1 Heap:
regions = 1024
capacity = 1073741824 (1024.0MB)
used = 222298240 (212.0001220703125MB)
free = 851443584 (811.9998779296875MB)
20.703136920928955% used
G1 Young Generation:
Eden Space:
regions = 25
capacity = 54525952 (52.0MB)
used = 26214400 (25.0MB)
free = 28311552 (27.0MB)
48.07692307692308% used
Survivor Space:
regions = 2
capacity = 2097152 (2.0MB)
used = 2097152 (2.0MB)
free = 0 (0.0MB)
100.0% used
G1 Old Generation:
regions = 194
capacity = 1017118720 (970.0MB)
used = 192938112 (184.0001220703125MB)
free = 824180608 (785.9998779296875MB)
18.969084749516753% used
11981 interned Strings occupying 1342824 bytes.
3. CPU选择
num.io.threads = 8 负责写磁盘的线程数,整个参数值要占总核数的50%。
num.replica.fetchers = 1 副本拉取线程数,这个参数占总核数的50%的1/3。
num.network.threads = 3 数据传输线程数,这个参数占总核数的50%的2/3。
建议32core。
4. 网络选择
网络带宽 = 峰值吞吐量 ≈ 20MB/s 选择千兆网卡即可。
100Mbps单位是bit;10M/s单位是byte ; 1byte = 8bit,100Mbps/8 = 12.5M/s。
一般百兆的网卡(100Mbps )、千兆的网卡(1000Mbps)、万兆的网卡(10000Mbps)。