一例服务器主机间隙性“挂起”的问题

客户有一台物理主机,上面安装了VMWare vSphere Hypervisor,上面跑了两个虚拟机,一个生产,一个测试。生产一直没问题,测试前段时间开始出现一个很奇怪的问题,就是服务器间隙性的不可访问,给我们感觉就是“挂起”,ssh上不去,上面跑的服务也访问不了,就是失去了所有响应,但片刻之后又一切恢复如初,然后一阵子又出问题,一阵子又恢复。

我首先通过VMWare的后台管理区查看这台虚拟机的运行日志,没发现任何异常,CPU连续在用,内存也连续在用,不像是死机。

我在正式主机上执行了个ping,并输出到一个文件中,以此来监视测试主机的“挂起”情况,发现了一个相当有趣的规律:好3分钟,挂5分钟,再好3分钟,再挂5分钟……周而复始,一直如此。再用arp命令确定ping不通的原因,发现是测试主机的IP地址确实没法映射为MAC地址,仿佛IP地址丢失了一样。

会不会是IP地址冲突引起?经过一番排查,没发现有冲突。

我又在测试环境上执行了类似的ping命令,通过查看日志,我确信主机还在运行,只是网络已经不可用了。那就只能去检查网络配置了。

打开网络配置文件查看:/etc/sysconfig/network-scripts/ifcfg-xxxxxx

看不出什么问题来,但我们不是还有一台正常的服务器么?两个对比一下,一比,果然发现了一处差别:

测试主机

BOOTPROTO="dhcp"

正式主机

BOOTPROTO="none"

果断把dhcp改为none,问题解决。原因可能是客户的网络环境中的dhcp服务器工作异常,当服务主机尝试用dhcp服务获取IP地址的时候出现了问题,导致正常的IP地址被配置为空地址,从而网络断开,但为什么5分钟后又自己恢复正常了呢?且为什么dhcp更新这么频繁呢?还有在服务主机配置没有改变的情况下为什么之前是好的呢?我没进一步研究。这次问题的解决主要依赖于我们还有一台正常的主机,可以做比较。

posted @ 2022-09-02 13:18  guogangj  阅读(101)  评论(0编辑  收藏  举报