pve节点频繁宕机问题排查
1.时间:
我是大概20220521日上午11:03分收到这个事情开始跟进;
再这之前一直是其他同事在处理,由于最近比较忙,没有安排的事情基本也都没有深入跟进,只是知道个大概。
2.问题现象:
qa环境k8s集群内有两台虚拟机节点宕机,影响的业务面为qa环境k8s集群不可用。下层的物理机是自建pve。pve也连接失败(认为此节点宕机)。处理方式人为干预对pve硬重启后,再逐次启动上层虚拟机。但是只能临时解决。
3.问题的处理思路:
#信息收集:
#判断系统
# cat /etc/redhat-release #这个为centos或者redhat查看方法
cat: /etc/redhat-release: No such file or directory
# cat /etc/debian_version #这个为通用的debian系统查看方法
10.12
# uname -a
Linux pve65 5.4.73-1-pve #1 SMP PVE 5.4.73-1 (Mon, 16 Nov 2020 10:52:16 +0100) x86_64 GNU/Linux
可以看出我们使用的是开源的pve虚拟机。
查看当前版本信息
# pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.73-1-pve)
pve-manager: 6.3-2 (running version: 6.3-2/22f57405)
pve-kernel-5.4: 6.3-1
pve-kernel-helper: 6.3-1
pve-kernel-5.4.73-1-pve: 5.4.73-1
获取最近的系统重启时间为 11:07分
重启后问题临时解决,那么就要分析11:07分以前的日志,在这个时间之前的日志都为有用的信息。
通过/var/log/messages日志发现11:07以前依然有系统日志输出。 这证明了系统一直在运行状态。
直到17号发现有一条cpu相关警告,但是这条线不太有价值,我追下去没有得到相关具体解决方案。
在/var/log/syslog 日志中有了新发现:
11:07:34秒前所有的日志都是报网卡挂起
e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: (直接google就得到了答案)
官方可以看到很多人遇到了同样的问题,也都回复得到了解决。和我们目前的问题一致:
4.下午3点53分处理结束
#如果没有ethtool工具可以执行如下命令安装:
apt install ethtool
#禁用 tcp 分段卸载和通用分段卸载
# ethtool -K eno1 tso off gso off
执行后到20220521日22:50分目前为止再没有报日志:
e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: