机房供电系统故障应急预案
2022-05-04 20:48 guesters 阅读(1403) 评论(0) 编辑 收藏 举报机房供电系统故障应急预案
停电在2个小时内,UPS系统可供电的操作指南
1 处理思路图
1.1可预知市电断电处理思路图
停电前准备工作 → 通知用户 → 备份设备配置 → 停电通知 → 查看设备运行情况 → 定期检查机房及设备温度 → 设备断电关机(如果有)
电力恢复 → 重启关机设备 → 设备异常更换设备和处理(如果有)→ 设备正常 → 检查业务通知领导并形成报告
1.2突发市电断电处理思路图
市电停电 → 通知领导 → 查看设备运行情况 → 定期检查机房及设备 → 设备断电关机(如果有)
电力恢复 → 重启关机设备 → 设备异常更换设备和处理(如果有)→设备正常 → 检查业务通知领导并形成报告
2 操作规范
2.1 处理流程图
数据中心机房市电或者UPS线路断电时处理流程图,如下所示。
2.2 UPS断电单电源设备处理流程图
现单电源设备使用UPS线路,UPS线路断电,将单电源设备切换到市电;UPS线路恢复供电后,则切换回UPS线路。UPS断电恢复流程图如下所示
3 断电处理步骤
3.1确认断电。首先确认机房停电情况,是UPS断电、市电断电或是系统误报情况,根据不同断电情况分别处理。
3.2汇报情况。确认断电情况后,向领导和负责人汇报停电事故: 各领导和负责人的电话详见《联系表》。
3.3故障处理步骤。
(1)通过监控系统发现机房出现断电情况,值班工程师首先确认是否误报,若确认断电,是UPS断电还是市电断电,同时将情况告、通知相关领导及责任人。
(2)值班工程师检查各业务是否正常,安排工程师至机房现场驻守核查机房情况。
a,查看设备运行指示灯是否正常。
b,每一个机柜的PDU指示灯是否正常。
c,通过机房环境监控系统实时监控机房温度。
d,每隔半小时远程登陆设备查看设备温度。
e,工程师实时查看机房和设备温度。 对温度超过阈值的设备,汇报领导审批后,采取立即断电关机措施,待电力恢复后重新启动。
(3)电力恢复后重启关机设备,并确认设备是否则正常:
a,查看设备运行指示灯是否正常。
b,每一个机柜的PDU指示灯是否正常。
c,登陆设备查看配置。
(4)若发现设备宕机,无法启动,则需更换设备。
4总结与报告
记录断电事件中出现的问题及处理方法,形成事件报告,提交至相关领导邮箱。同时将报告更新进入工单系统知识库,不断完善应急预案故障处理流程。
5 记录表
UPS异常运行记录表
每10分钟记录一次 确认签字:
时间 |
UPS1 |
UPS2 |
UPS3 |
|||
输出电压 输出电流 |
电池后备时间 |
输出电压 输出电流 |
电池后备时间 |
输出电压 输出电流 |
电池后备时间 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
机房温湿度记录表
每20分钟记录一次 确认签字:
时间 |
机房1 |
机房2 |
机房3 |
|||
温度 |
湿度 |
温度 |
湿度 |
温度 |
湿度 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
市电中断后主机组、网络组、应用组系统运行确认表
每30分钟进行一次确认
时间 |
网络组 |
主机组 |
应用组 |
|||
供电和设备状态 |
签字 |
供电和设备状态 |
签字 |
应用系统状态 |
签字 |
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
|
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架