前段时间机房各种故障不断,终于消停了一周了,没有想到一周后又出现了一例。
这次只是我们系统的故障,我们查看了服务器后定位到数据库服务器一些异常反应,
但是从服务器的表现来看却又无法断定就是硬件故障,尴尬之余,我们找来infra的
同事一起查看,他们刚开始很自信的告诉我们硬件都是正常的,虽然我们看到内存
都是正常的现实,但是系统的一系列不正常反应,让我们觉得这个数据库的服务器
肯定存在问题,经过一个小时的论证,我们终于收到了Infra的反馈,他们收到了硬
件错误的提示,只是信息有点延迟,现在已经过去了一个小时了才定位确实是硬件
故障,那就马上联系供应商来检测了。一通电话之后,供应商的人要3个小时后才能
入场。那也没有办法,只能通告用户系统硬件故障,IT正在紧急处理中,现在先停机。
等到供应商的人入场后,检测后发现服务器的内存坏了几根,最后经过2个小时的
检测,把所有坏掉的内存都取下来了,重新启动服务器,才算正常。
幸亏我们这台服务器硬件配置强悍,在坏掉了的内存拆掉后,虽然减少了64G的
内存,但是还是能够正常工作。供应商的人表示现在没有现成的内存来更换,下次
安排时间再过来处理,需要停机处理,此事暂时告一段落。只是更换内存这事就出现
了续集,咱们下回分解。