EVA4400存储RAID信息丢失数据恢复过程
【服务器数据恢复故障分析】
在数据恢复行业中经常会遇到因为意外断电导致raid模块硬件损坏或者riad管理信息丢失等raid模块损坏导致数据丢失的情况。正常情况下服务器的raid阵列一旦创建完成后就不再对管理模块中的信息进行更改,不过raid管理模块的信息其实是可修改信息,一次或多次的意外断电是可能造成这部分信息被篡改或丢失的,断电次数过多时甚至可能导致raid卡上的元器损坏。间接导致主机失去对多块物理硬盘进行RAID管理的中间层模块。该客户的服务器就属于这种情况。
【服务器数据恢复故障描述】
客户服务器属于HP品牌EVA4400系列存储,服务器底层共有6块硬盘组成raid5阵列,单块硬盘为1TB、SAS硬盘。操作系统是WINDOWS 2003 SERVER。
服务器主要作用为公司内部文件服务器,在正常工作状态下由于机房电压问题连续遭遇了两次意外断电。管理员将服务器进行重启,但raid阵列提示“无法找到存储设备”,尝试进入raid管理模块进行查看,但进入raid管理模块时服务器死机,多次尝试后故障依旧存在,管理员只好联系数据恢复公司进行服务器数据恢复。
【服务器数据恢复方案】
1.首先将服务器中的所有硬盘进行物理检测确定有无物理故障,硬盘读取状态正常。
2.对服务器所有硬盘进行镜像备份,注:为保证数据安全,镜像目标存储需选择带有冗余功能的阵列。
3.对原服务器进行备份完成后由服务器数据恢复工程师对备份文件进行数据分析,通过文件系统存储规则确定该服务器中6块硬盘的数据块大小,条带信息、盘序、校验方式等信息,并在虚拟环境中重建虚拟raid组。
4.对所构建RAID中的数据进行逻辑校验,确保重构RAID所应用的各参数正确无误后,针对用户最为关注的数据进行完全验证;
5.用户确认数据恢复结果已完全达到预期(数据恢复至故障前状态)后,将所有用户业务数据迁移至用户存储,至此数据恢复完成
【服务器存储安全建议】
1.尽量保证机房电源供应稳定,以减少电源异常对主机及存储的冲击;
2.最好为重要的服务器及存储配置UPS,可在机房意外断电的情况下保证核心业务系统能继续维持一定时间的正常工作,从而为企业寻求应急解决方案赢得宝贵的时间;
3.对于服务年限已久的服务器应定期进行安全状况检查,并对其整体运行状态进行评估以决定是否进行硬件及系统的全面升级,同时提前制定突发数据灾难的紧急处理方案,以降低数据灾难带来的业务损失。