健康探测失败排查思路
-
- 这个节点的在对应时间底层有没异常cpu,mem 以及磁盘io ,网络
-
- 抛出探针失败的时间如果业务测的日志也没有异常的信息抛出,可以调整下超时时间
-
- 容器抓包分析
1 可以先执行kubectl get pods $PodName -n $NameSpace -o wide看看pod运行的节点
2 登录到对应的node上,如果是docker运行时,执行 docker ps| grep $pod名称 找到容器ID,然后在执行 docker inspect -f {{.State.Pid}} 容器id 找到容器的进程pid
如果是containerd, yum -y install jq ; crictl inspect $(crictl ps | grep crictl pods | grep $POD_NAME名称 | awk '{print$1}' | awk '{print$1}') | jq .info.pid ,找到容器的进程pid
3 执行yum -y install util-linux.x86_64 安装下 nsenter工具,然后执行 nsenter --target 容器pid -n 进入到容器的网络名称空间,通过tcpdump -i eth0 -s 0 -w /tmp/1.pcap抓包
-
- 业务代码更新导致,回滚验证 bugfix。
如对您有帮助,支持下呗!
微信

支付宝

【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?