RocketMQ的客户端连接数调查
RocketMQ版本:3.4.6
==问题现象==
RocketMQ集群的某个topic,在一部分节点上消费有“断层”,这部分数据一致没办法消费。
==调查过程==
一顿操作猛如虎的调查之后发现,
该Topic的消费者的客户端连接数不正确。
程序中设置的客户端数明明是4个,
但是Web页面上显示的是5个。
OK,如何才能知道这些客户端程序到底是哪些呢?
看了一下RocketMQ的命令列表,发现里面有一个命令好像有戏。
用这个命令尝试了一下,果然有效。
命令:sh /home/hadmin/alibaba-rocketmq/bin/mqadmin consumerConnection -n "10.11.2.4:9876;10.11.2.5:9876" -g face2
用这个命令可以查看出,这个消费组的客户端是在哪个节点上,占用的端口号是哪个。
将正常的客户端连接断开(用的Storm消费,把Storm的拓扑kill掉就可以了)
再次使用这个命令,就可以查看出,到底是哪个程序在捣鬼了。
发现在10.11.2.9节点上,54681这个端口的java程序启动了一个客户端连接。
到10.11.2.9上查看一下是哪个程序。
命令:netstat -anp | grep 54681 查看占用端口的java进程号是43021。
命令:ps -ef | grep 43021 查看启动这个进程的java程序。
==问题结论==
我们的场景是用Storm来消费RocketMQ。
但是,在我们kill拓扑的时候,由于storm的原因,
偶尔会有一些worker不能被kill掉,变成“僵尸进程”
上述问题中,莫名其妙多出的1个客户端连接就是僵尸进程引起的,
将上述发现的僵尸进程kill掉之后,问题就解决了。
==经验教训==
Storm的拓扑kill之后,建议检查是否有僵尸进程存在。可以写一个shell脚本检查。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)