某医院DELL2850服务器磁盘阵列数故障解决过程
服务器故障描述:
客户使用Dell 2850服务器组建了raid5磁盘阵列,阵列中包含有6块硬盘(SCSI硬盘,单盘容量300G),服务器操作系统为linux Redhat4;文件系统为ext3文件系统。在使用过程中服务器瘫痪,管理员对阵列检查后发现有两块硬盘离线,对其中一块硬盘进行了强制上线操作,但操作系统启动异常。管理员此时意识到事情的严重程度,马上对服务器进行关机,然后联系到北亚数据恢复中心进行数据恢复。
数据恢复中心初检结论:
在服务器数据恢复工作中,raid5两块硬盘离线的情况十分常见,由于raid5磁盘阵列支持一块硬盘离线时的荣誉保护,一旦多块硬盘处于离线状态,服务器便处于瘫痪状态,且不会自动上线。由于raid控制器具有一定的面感性,多数硬盘掉线紧紧是因为电源波动、控制器bug等随机原因导致,所以掉线盘可能没有严重的物理故障。本案例就是如此。但是此时管理员进行强制上线操作风险性是很大的,一旦上线错误就会导致控制器对数据产生一些不可逆的损坏,当管理员进入操作系统后因为文件系统不一致进行修复,服务器中所有硬盘数据不一致,数据恢复难度非常大。
服务器数据恢复过程:
首先对服务器中所有硬盘进行完整备份,在备份过程中发现多块硬盘已经存在坏道但没有下线,原因是raid没有读到硬盘坏道。备份完成后分析原服务器的raid组成结构然后虚拟出raid环境对raid结构畸形验证,把服务器后期破坏的结构进行人工修正,将修正后的数据导出到一台中间存储上临时存放。数据恢复的最后一步使用完好的硬盘在服务器上搭建新的raid5磁盘阵列,将恢复出的数据迁移到新raid中即可。检验恢复出来的数据一切正常,数据成功恢复。
服务器数据恢复结论:
一旦raid5磁盘阵列出现多块硬盘离线、服务器瘫痪的情况切记不要盲目进行强制上线操作,如果有足够的备用空间,可将源硬盘全部镜像。有两种方法(WINDOWS2003或DOS下,其他操作系统有风险):
1、可用相同或大于源盘容量的硬盘做为目标盘,将源盘全部扇区方式CLONE到目标盘。将所有盘做同样操作。
2、可将每块源盘完全以扇区方式输出文件到某大容量存储空间(如大容量硬盘、NAS、SAN、DAS等)