//雪花飘落特效 //右上角github跳转   

pve节点频繁宕机问题排查

1.时间:

我是大概20220521日上午11:03分收到这个事情开始跟进;

再这之前一直是其他同事在处理,由于最近比较忙,没有安排的事情基本也都没有深入跟进,只是知道个大概。

2.问题现象:

​ qa环境k8s集群内有两台虚拟机节点宕机,影响的业务面为qa环境k8s集群不可用。下层的物理机是自建pve。pve也连接失败(认为此节点宕机)。处理方式人为干预对pve硬重启后,再逐次启动上层虚拟机。但是只能临时解决。

3.问题的处理思路:

#信息收集:

#判断系统
# cat /etc/redhat-release  #这个为centos或者redhat查看方法
cat: /etc/redhat-release: No such file or directory
# cat /etc/debian_version  #这个为通用的debian系统查看方法
10.12




# uname -a
Linux pve65 5.4.73-1-pve #1 SMP PVE 5.4.73-1 (Mon, 16 Nov 2020 10:52:16 +0100) x86_64 GNU/Linux

可以看出我们使用的是开源的pve虚拟机。


查看当前版本信息
# pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.73-1-pve)
pve-manager: 6.3-2 (running version: 6.3-2/22f57405)
pve-kernel-5.4: 6.3-1
pve-kernel-helper: 6.3-1
pve-kernel-5.4.73-1-pve: 5.4.73-1

获取最近的系统重启时间为 11:07分

重启后问题临时解决,那么就要分析11:07分以前的日志,在这个时间之前的日志都为有用的信息。

通过/var/log/messages日志发现11:07以前依然有系统日志输出。 这证明了系统一直在运行状态。

直到17号发现有一条cpu相关警告,但是这条线不太有价值,我追下去没有得到相关具体解决方案。

在/var/log/syslog 日志中有了新发现:

11:07:34秒前所有的日志都是报网卡挂起

e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: (直接google就得到了答案)

官方可以看到很多人遇到了同样的问题,也都回复得到了解决。和我们目前的问题一致:

https://forum.proxmox.com/threads/e1000-driver-hang.58284/

4.下午3点53分处理结束

#如果没有ethtool工具可以执行如下命令安装:
apt install ethtool

#禁用 tcp 分段卸载和通用分段卸载
# ethtool -K eno1 tso off gso off

执行后到20220521日22:50分目前为止再没有报日志:
e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:

posted @ 2022-05-22 00:17  农夫运维  阅读(6091)  评论(2编辑  收藏  举报