软件工程师遭遇硬件故障RAID5两块硬盘离线
一台IBM x3650 M2服务器,6块硬盘(SAS 146G)组成RAID5,无热备盘,系统运行正常无错误警告,关机后开机系统找不到RAID无法启动,两块硬盘亮黄灯,硬件报DASD错误。由于已经过保请硬件供应商维修工程师上门检查发现RAID状态为offline,3号(PD Missing)、4号(failed)两盘错误,结论为两块硬盘先后损坏无法修复,建议转交第三方公司进行数据恢复。
由于没有类似问题的处理经验,为了最大程度保护数据没有自行尝试恢复,标号盘序交由数据恢复公司进行数据恢复,将数据完整镜像至备份硬盘(大概2个小时),抽样验证数据完全恢复。
有了数据安全的保证自行尝试恢复服务器,启动过程中自检竟然看不到RAID自检,通过BIOS设置进入WEB BIOS管理界面,选择3号盘(应选择后下线的硬盘,恢复公司分析后给出的结论),将其状态更改为“Unconfig Good”,保存设置退出后重启(此时3号盘黄灯熄灭),竟然仍然看不到RAID自检,但重新进入WEB BIOS界面后看到RAID状态已经变成Online处于降级状态,且3号盘状态也变为正常(Online)。
不死心,开始胡乱尝试(此步骤操作应该没有什么参考价值),将系统安装盘放入光驱,选择启动设备为光驱,出现”按任意键从光盘启动“的提示信息后没有理会,系统继续引导竟然出现了久违的Windows启动界面。
服务器启动后恢复正常运行状态且给出了RAID降级的警告对话框,此时3号盘状态正常,4号盘仍然亮黄灯,随后在热机状态下更换掉4号盘,服务器自动开始Rebuild,自此服务器完全恢复正常,原有应用运行正常。
总结:
1.RAID5仅支持1块硬盘离线,一旦出现第2块硬盘离线即进入offline状态,重新拔插硬盘并不会自动进行恢复,需要手工对后下线硬盘进行”强制上线“。
2.一旦遭遇RAID损坏在不熟悉数据恢复的情况下尽量保护现场,可转交数据恢复公司进行数据恢复(有偿),数据恢复的几率还是很高的。(即便硬盘出现硬件损伤亦有几率恢复)
3.本例中第2块硬盘并没有真正损坏但离线原因暂无法确定,奇怪的是在第1块硬盘损坏RAID降级时服务器竟然没有任何错误提示。(硬件巡检工作也没有做好)