前段时间机房各种故障不断,终于消停了一周了,没有想到一周后又出现了一例。
这次只是我们系统的故障,我们查看了服务器后定位到数据库服务器一些异常反应,
但是从服务器的表现来看却又无法断定就是硬件故障,尴尬之余,我们找来infra的
同事一起查看,他们刚开始很自信的告诉我们硬件都是正常的,虽然我们看到内存
都是正常的现实,但是系统的一系列不正常反应,让我们觉得这个数据库的服务器
肯定存在问题,经过一个小时的论证,我们终于收到了Infra的反馈,他们收到了硬
件错误的提示,只是信息有点延迟,现在已经过去了一个小时了才定位确实是硬件
故障,那就马上联系供应商来检测了。一通电话之后,供应商的人要3个小时后才能
入场。那也没有办法,只能通告用户系统硬件故障,IT正在紧急处理中,现在先停机。
等到供应商的人入场后,检测后发现服务器的内存坏了几根,最后经过2个小时的
检测,把所有坏掉的内存都取下来了,重新启动服务器,才算正常。
幸亏我们这台服务器硬件配置强悍,在坏掉了的内存拆掉后,虽然减少了64G的
内存,但是还是能够正常工作。供应商的人表示现在没有现成的内存来更换,下次
安排时间再过来处理,需要停机处理,此事暂时告一段落。只是更换内存这事就出现
了续集,咱们下回分解。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架
2013-05-23 为了更好的生存,更好的生活,必须要准备做出选择了。。。
2013-05-23 为了更好的生存,更好的生活,必须要准备做出选择了。。。