SUSE10 SP2/SP3 无规律死机故障解决

前一段时间在华为工作,一直没空记录自己的工作,年后终于辞职了才停下来,发现好久没写东西了。 在华为管理服务器的时候,遇到过一个比较头疼的事情。就是服务器无规律死机。就是系统在毫无征兆的情况下死机了,在死机的时候,系统可以ping通,但无法进行任何操作,包括本地登录都不行。而在强行关机后再重启进入系统一切又完全正常,更郁闷的是无法从系统的任何日志中获取到相关的信息。一直没有定位问题出现在哪里。系统是SUSE Enterprise Linux 10 SP3.服务器是HP DL580. 在网上也找到个和我情况差不多的,链接:http://liujunliang1210-yahoo-com-cn.iteye.com/blog/1040860 。 不过我装系统的时候磁盘阵列类型用的是Raid 5,使用上面这篇文章的方法,问题还是没解决. 只能求助HP的工程师了,华为也算是HP的大客户了,用HP的SmartStart收集硬件日志也没发现有什么异常。 来来回回几天他们也没定位出来是什么问题,只能把服务器里面的所有板子都重新换了一遍。问题才算搞定,不出现无规律宕机了。我估计是HP板子本事的问题,出厂不合格。 但是还有个问题,这个也困扰了好久。服务器是2011年10月份进的,当时一次性进了大概有30台左右吧,安装完系统之后,无论是外向内还是内向外都ping不同,ping 127.0.0.1和本地都能ping通,把网线拔下来再插上外向内和内向外都ping同了。 直接说问题的解决办法,其实这是HP的网卡固件驱动有问题,至于驱动的版本号我已经记不清楚了,不过通过最新的SmartStart将固件升级到最新就能将问题解决了,这可是服务器批次问题啊,真够坑爹的。有问题的服务器就卖出去了....
posted @ 2012-02-14 22:40  坤坤同学  阅读(1050)  评论(0编辑  收藏  举报