pve节点频繁宕机问题排查
1.时间:
我是大概20220521日上午11:03分收到这个事情开始跟进;
再这之前一直是其他同事在处理,由于最近比较忙,没有安排的事情基本也都没有深入跟进,只是知道个大概。
2.问题现象:
qa环境k8s集群内有两台虚拟机节点宕机,影响的业务面为qa环境k8s集群不可用。下层的物理机是自建pve。pve也连接失败(认为此节点宕机)。处理方式人为干预对pve硬重启后,再逐次启动上层虚拟机。但是只能临时解决。
3.问题的处理思路:
#信息收集:
#判断系统
# cat /etc/redhat-release #这个为centos或者redhat查看方法
cat: /etc/redhat-release: No such file or directory
# cat /etc/debian_version #这个为通用的debian系统查看方法
10.12
# uname -a
Linux pve65 5.4.73-1-pve #1 SMP PVE 5.4.73-1 (Mon, 16 Nov 2020 10:52:16 +0100) x86_64 GNU/Linux
可以看出我们使用的是开源的pve虚拟机。
查看当前版本信息
# pveversion -v
proxmox-ve: 6.3-1 (running kernel: 5.4.73-1-pve)
pve-manager: 6.3-2 (running version: 6.3-2/22f57405)
pve-kernel-5.4: 6.3-1
pve-kernel-helper: 6.3-1
pve-kernel-5.4.73-1-pve: 5.4.73-1
获取最近的系统重启时间为 11:07分
重启后问题临时解决,那么就要分析11:07分以前的日志,在这个时间之前的日志都为有用的信息。
通过/var/log/messages日志发现11:07以前依然有系统日志输出。 这证明了系统一直在运行状态。
直到17号发现有一条cpu相关警告,但是这条线不太有价值,我追下去没有得到相关具体解决方案。
在/var/log/syslog 日志中有了新发现:
11:07:34秒前所有的日志都是报网卡挂起
e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang: (直接google就得到了答案)
官方可以看到很多人遇到了同样的问题,也都回复得到了解决。和我们目前的问题一致:
4.下午3点53分处理结束
#如果没有ethtool工具可以执行如下命令安装:
apt install ethtool
#禁用 tcp 分段卸载和通用分段卸载
# ethtool -K eno1 tso off gso off
执行后到20220521日22:50分目前为止再没有报日志:
e1000e 0000:00:1f.6 eno1: Detected Hardware Unit Hang:
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· 单线程的Redis速度为什么快?
2019-03-06 如何进行有效的需求调研
2017-03-06 认识项目经理
2017-03-06 无线网卡与本地连接不能同时使用&一机多网络的优先级设置