硬件监控自动化实现逻辑
硬件监控自动化实现逻辑
工单信息说明
厂商:dell
主机名:node7.blikube.ops.beta.bj1.wormpex.com
sn号:6L06YK2
管理卡地址:10.252.200.18
操作系统:CentOS Linux
服务器型号:PowerEdge R730 # 这个需要登录管理卡查看
快速服务代码:14330808434 # 这个需要登录管理卡查看
bios版本:2.4.3 # 这个需要登录关啦卡查看
机柜位置:3f03-e21 # 这个需要登录opscmdb查看
机房位置:北京市朝阳区酒仙桥东路1号世纪互联m5楼东侧m6v机房
负责人:['biao.cheng', 'lei.guo06'] # 这个需要去apptree查看
故障类型:mem
故障详情: # 这个需要上系统或者登录管理卡查看
Status : Critical
Index : 2
Size : 16384 MB
Type : DDR4 - Synchronous Registered (Buffered)
Connector Name : A3
Status : Critical
Index : 8
Size : 16384 MB
Type : DDR4 - Synchronous Registered (Buffered)
Connector Name : A9
Status : Critical 内存状态为Critical
Index : 13 # id为13
Size : 16384 MB # 16g
Type : DDR4 - Synchronous Registered (Buffered)
Connector Name : B2 # 内存的位置
问题
硬件监控为什么不能使用delta的工单进行监控?
因为硬件问题需要很多的信息收集,每次报修的信息收集就占用工程师的很大一部分精力。需要在工单中将硬件报修的需要的详细信息都展示出来,在报修的时候直接复制内容发送邮件即可。节省了大量的收集信息时间和厂商沟通的时间。
监控指标
指标 | 报警等级 | 报警判断 |
---|---|---|
plugin_sys.hw.disk 0 | L3 | 3m>0 |
plugin_sys.hw.fan 0 | L3 | 3m>0 |
plugin_sys.hw.memory 2 | L3 | 3m>0 |
plugin_sys.hw.power 0 | L3 | 3m>0 |
plugin_sys.hw.temps 0 | L3 | 3m>0 |
注意:浪潮的监控会多一个指标plugin_sys.hw.drive 0 这个是硬盘插槽状态的监控。这个没有配置报警,但是插槽出现问题会有硬件工单报出来。(出现这个真实插槽出现问题的很少,我们有幸遇到了,出现这个问题是插槽掉线了。硬盘也直接掉线了。本来系统中有4块硬盘做的raid5,但是直接插槽掉了。硬盘状态无法上报,raid的状态也是正常,因为这个raid5有一块备用盘。所以就没有发现)