contos7 使用zabbix监控物理磁盘状态实例
一.系统环境:
物理机:dell R640
操作系统:centos7
二.安装MegaCli
监控主要是通过MegaCli 软件获取到物理主机的read及硬盘相关状态信息。然后通过zabbix的自定义报警进行监控。
MegaCli是一款管理维护硬件RAID软件,可以通过它来了解当前raid卡的所有信息,包括 raid卡的型号,raid的阵列类型,raid 上各磁盘状态,等等。通常,我们对硬盘当前的状态不太好确定,一般通过机房人员巡检来完成,有没有通过软件的方式来检查确定这个问题呢。MegaCli就可以做到,一般通过 MegaCli 的Media Error Count: 0 Other Error Count: 0 这两个数值来确定阵列中磁盘是否有问题;Medai Error Count 表示磁盘可能错误,可能是磁盘有坏道,这个值不为0值得注意,数值越大,危险系数越高,Other Error Count 表示磁盘可能存在松动,可能需要重新再插入。MegaCli 可以对阵列中所有的磁盘进行检测,我们可以通过脚本的方式来检测相关参数,从而通知管理人员。
2.1、 下载MegCli,目前针对公司DB数据库是IBM的服务器,直接从IBM官方下载,如果
其它服务器的,使用各官方下载或者 LSI网站上进行相关下载。一般来说,是通用的。这个包适用32 /64位操作系统平台
下载地址:ftp://download2.boulder.ibm.com/ecc/sar/CMA/XSA/ibm_utl_sraidmr_megacli-8.00.48_linux_32-64.zip
2.2、 安装
#unzip ibm_utl_sraidmr_megacli-8.00.48_linux_32-64.zip
#cd linux
# rpm -ivh Lib_Utils-1.00-09.noarch.rpm MegaCli-8.00.48-1.i386.rpm
MegaCli 使用命令介绍:
命令使用: #/opt/MegaRAID/MegaCli/MegaCli64 -LDInfo -Lall -aALL 查raid级别 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aALL 查raid卡信息 #/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL 查看硬盘信息 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -aAll 查看电池信息 #/opt/MegaRAID/MegaCli/MegaCli64 -FwTermLog -Dsply -aALL 查看raid卡日志 #/opt/MegaRAID/MegaCli/MegaCli64 -adpCount 【显示适配器个数】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpGetTime –aALL 【显示适配器时间】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpAllInfo -aAll 【显示所有适配器信息】 #/opt/MegaRAID/MegaCli/MegaCli64 -LDInfo -LALL -aAll 【显示所有逻辑磁盘组信息】 #/opt/MegaRAID/MegaCli/MegaCli64 -PDList -aAll 【显示所有的物理信息】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -aALL |grep ‘Charger Status’ 【查看充电状态】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuStatus -aALL【显示BBU状态信息】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuCapacityInfo -aALL【显示BBU容量信息】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuDesignInfo -aALL 【显示BBU设计参数】 #/opt/MegaRAID/MegaCli/MegaCli64 -AdpBbuCmd -GetBbuProperties -aALL 【显示当前BBU属性】 #/opt/MegaRAID/MegaCli/MegaCli64 -cfgdsply -aALL 【显示Raid卡型号,Raid设置,Disk相关信息】 3.磁带状态的变化,从拔盘,到插盘的过程中。 Device |Normal|Damage|Rebuild|Normal Virtual Drive |Optimal|Degraded|Degraded|Optimal Physical Drive |Online|Failed –> Unconfigured|Rebuild|Online 4.查看磁盘缓存策略 #/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -L0 -a0 or #/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -L1 -a0 or #/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -LALL -a0 ro #/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -Cache -LALL -aALL ro #/opt/MegaRAID/MegaCli/MegaCli64 -LDGetProp -DskCache -LALL -aALL 5.设置磁盘缓存策略 缓存策略解释: WT (Write through WB (Write back) NORA (No read ahead) RA (Read ahead) ADRA (Adaptive read ahead) Cached Direct 例子: #/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp WT|WB|NORA|RA|ADRA -L0 -a0 or #/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp -Cached|-Direct -L0 -a0 or enable / disable disk cache #/opt/MegaRAID/MegaCli/MegaCli64 -LDSetProp -EnDskCache|-DisDskCache -L0 -a0 6.创建一个 raid5 阵列,由物理盘 2,3,4 构成,该阵列的热备盘是物理盘 5 #/opt/MegaRAID/MegaCli/MegaCli64 -CfgLdAdd -r5 [1:2,1:3,1:4] WB Direct -Hsp[1:5] -a0 7.创建阵列,不指定热备 #/opt/MegaRAID/MegaCli/MegaCli64 -CfgLdAdd -r5 [1:2,1:3,1:4] WB Direct -a0 8.删除阵列 #/opt/MegaRAID/MegaCli/MegaCli64 -CfgLdDel -L1 -a0 9.在线添加磁盘 #/opt/MegaRAID/MegaCli/MegaCli64 -LDRecon -Start -r5 -Add -PhysDrv[1:4] -L1 -a0 10.阵列创建完后,会有一个初始化同步块的过程,可以看看其进度。 #/opt/MegaRAID/MegaCli/MegaCli64 -LDInit -ShowProg -LALL -aALL 或者以动态可视化文字界面显示 #/opt/MegaRAID/MegaCli/MegaCli64 -LDInit -ProgDsply -LALL -aALL 11.查看阵列后台初始化进度 #/opt/MegaRAID/MegaCli/MegaCli64 -LDBI -ShowProg -LALL -aALL 或者以动态可视化文字界面显示 #/opt/MegaRAID/MegaCli/MegaCli64 -LDBI -ProgDsply -LALL -aALL 12.指定第 5 块盘作为全局热备 #/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Set [-EnclAffinity] [-nonRevertible] -PhysDrv[1:5] -a0 13.指定为某个阵列的专用热备 #/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Set [-Dedicated [-Array1]] [-EnclAffinity] [-nonRevertible] -PhysDrv[1:5] -a0 14.删除全局热备 #/opt/MegaRAID/MegaCli/MegaCli64 -PDHSP -Rmv -PhysDrv[1:5] -a0 15.将某块物理盘下线/上线 #/opt/MegaRAID/MegaCli/MegaCli64 -PDOffline -PhysDrv [1:4] -a0 #/opt/MegaRAID/MegaCli/MegaCli64 -PDOnline -PhysDrv [1:4] -a0 16.查看物理磁盘重建进度 #/opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ShowProg -PhysDrv [1:5] -a0 或者以动态可视化文字界面显示 #/opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ProgDsply -PhysDrv [1:5] -a0 磁带状态的变化,从拔盘,到插盘的过程中: Device |Normal|Damage|Rebuild|Normal Virtual Drive |Optimal|Degraded|Degraded|Optimal Physical Drive |Online|Failed –> Unconfigured|Rebuild|Online
常用命令:
查看硬盘信息
# /opt/MegaRAID/MegaCli/MegaCli64 -PDList -aALL
检查磁盘的正常与否主要看上图中红框中的参数,若error不为0 ,Firmware state 为Failed则硬盘故障。
查询日志信息:
#/opt/MegaRAID/MegaCli/MegaCli64 -FwTermLog -Dsply -aALL
可以查询到硬盘的报错信息。
查看rebuild进度,当硬盘故障换盘后,会有一段时间硬盘处于rebuild状态重新平衡数据。可以通过这个命令查看进度:
# /opt/MegaRAID/MegaCli/MegaCli64 -PDRbld -ShowProg -PhysDrv[32:5] -aAll
其中的[32:5] 可以通过上面查看硬盘信息的命令获取到
32 是指 Enclosure Device ID
5 是指Slot Number
上图则表示已经完成了百分之16
read10硬盘替换可以参考文章:https://blog.csdn.net/cjfeii/article/details/51781978
3.zabbix监控脚本
#此脚本用于检测物理磁盘状态 #!/bin/bash #check raid disk status MEGACLI="/opt/MegaRAID/MegaCli/MegaCli64 " a=1 b=1 $MEGACLI -pdlist -aALL | grep "Firmware state" | awk -F : '{print $2}' | awk -F , '{print $1}' >/tmp/fireware.log $MEGACLI -pdlist -aALL | grep -E "Media Error|Other Error" | awk -F : '{print $2}' >/tmp/disk.log for i in `cat < /tmp/disk.log` do if [ $i -ne 0 ] then a=0 fi done for i in `cat < /tmp/fireware.log` do if [ $i != Online ] then b=0 fi done #返回1则表示正常,返回0则表示不正常,磁盘有问题 echo $(($a*$b))
配置zabbix客户端,添加脚本参数:
UnsafeUserParameters=1
UserParameter=PYDISK,/usr/local/scripts/checkpydisk.sh
给脚本赋予zabbix用户权限
# chown zabbix:zabbix /usr/local/scripts/ -R
#chmod 755 /usr/local/scripts/checkpydisk.sh
重启客户端
# systemctl restart zabbix-agent
客户端测试:
# zabbix_agentd -t PYDISK
若有问题后面获取的值则为0
4.zabbix 界面报警配置。
添加监控项:
添加触发器:
配置完成。
参考文章:http://blog.chinaunix.net/uid-25135004-id-3139293.html