代码改变世界

机房供电系统故障应急预案

2022-05-04 20:48  guesters  阅读(1061)  评论(0编辑  收藏  举报

机房供电系统故障应急预案

停电在2个小时内,UPS系统可供电的操作指南

 

1 处理思路图

1.1可预知市电断电处理思路图

停电前准备工作 → 通知用户 → 备份设备配置 → 停电通知 → 查看设备运行情况 → 定期检查机房及设备温度 → 设备断电关机(如果有)

电力恢复 → 重启关机设备 → 设备异常更换设备和处理(如果有)→ 设备正常 → 检查业务通知领导并形成报告

 

1.2突发市电断电处理思路图

市电停电 → 通知领导 → 查看设备运行情况 → 定期检查机房及设备 → 设备断电关机(如果有)

电力恢复 → 重启关机设备 → 设备异常更换设备和处理(如果有)→设备正常 → 检查业务通知领导并形成报告 

 

2 操作规范

2.1 处理流程图

数据中心机房市电或者UPS线路断电时处理流程图,如下所示。

 

2.2 UPS断电单电源设备处理流程图

现单电源设备使用UPS线路,UPS线路断电,将单电源设备切换到市电;UPS线路恢复供电后,则切换回UPS线路。UPS断电恢复流程图如下所示

 

 

3 断电处理步骤

3.1确认断电。首先确认机房停电情况,是UPS断电、市电断电或是系统误报情况,根据不同断电情况分别处理。

3.2汇报情况。确认断电情况后,向领导和负责人汇报停电事故: 各领导和负责人的电话详见《联系表》。

3.3故障处理步骤。

(1)通过监控系统发现机房出现断电情况,值班工程师首先确认是否误报,若确认断电,是UPS断电还是市电断电,同时将情况告、通知相关领导及责任人。

(2)值班工程师检查各业务是否正常,安排工程师至机房现场驻守核查机房情况。

a,查看设备运行指示灯是否正常。

b,每一个机柜的PDU指示灯是否正常。

c,通过机房环境监控系统实时监控机房温度。

d,每隔半小时远程登陆设备查看设备温度。

e,工程师实时查看机房和设备温度。 对温度超过阈值的设备,汇报领导审批后,采取立即断电关机措施,待电力恢复后重新启动。

(3)电力恢复后重启关机设备,并确认设备是否则正常:

a,查看设备运行指示灯是否正常。

b,每一个机柜的PDU指示灯是否正常。

c,登陆设备查看配置。

(4)若发现设备宕机,无法启动,则需更换设备。

 

4总结与报告

记录断电事件中出现的问题及处理方法,形成事件报告,提交至相关领导邮箱。同时将报告更新进入工单系统知识库,不断完善应急预案故障处理流程。 

 


 

5 记录表

UPS异常运行记录表                                                                                   

每10分钟记录一次 确认签字:             

时间

UPS1

UPS2

UPS3

输出电压 输出电流

电池后备时间

输出电压 输出电流

电池后备时间

输出电压 输出电流

电池后备时间

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

机房温湿度记录表                                                                             

每20分钟记录一次 确认签字:  

时间

机房1

机房2

机房3

温度

湿度

温度

湿度

温度

湿度

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 

 


 

市电中断后主机组、网络组、应用组系统运行确认表                                                                                                 

每30分钟进行一次确认 

时间

网络组

主机组

应用组

供电和设备状态

签字

供电和设备状态

签字

应用系统状态

签字