健康探测失败排查思路

1. 这个节点的在对应时间底层有没异常cpu，mem 以及磁盘io ，网络
1. 抛出探针失败的时间如果业务测的日志也没有异常的信息抛出，可以调整下超时时间
1. 容器抓包分析

1 可以先执行kubectl get pods $PodName -n $NameSpace -o wide看看pod运行的节点 
2 登录到对应的node上，如果是docker运行时，执行 docker ps| grep $pod名称 找到容器ID，然后在执行 docker inspect -f {{.State.Pid}} 容器id 找到容器的进程pid 
如果是containerd， yum -y install jq ; crictl inspect $(crictl ps | grep crictl pods | grep $POD_NAME名称 | awk '{print$1}' | awk '{print$1}') | jq .info.pid ,找到容器的进程pid 
3 执行yum -y install util-linux.x86_64 安装下 nsenter工具，然后执行 nsenter --target 容器pid -n 进入到容器的网络名称空间，通过tcpdump -i eth0 -s 0 -w /tmp/1.pcap抓包

1. 业务代码更新导致，回滚验证 bugfix。

posted @ 2024-03-30 11:23 西门运维阅读(91) 评论(0) 收藏举报

刷新页面返回顶部

Jack He

健康探测失败排查思路

公告