服务器硬件监控转载:
转载:http://nolinux.blog.51cto.com/4824967/1664664
前一周上架服务器,本来准备把针对服务器的硬件监控这一部分总结下成文,结果过个端午给过忘了。。。今天就又整理了下,在这里分享给51博友,也算是对自己前段工作的一个总结。
在对服务器的硬件监控上,目前业界主要基于如下两种:
1、服务器自带的工具,比如HP的hpacucli,DELL的OMSA等
2、智能平台管理接口 (IPMI,全称Intelligent Platform Management Interface)
基于以上两种,通过nagios、zabbix或自研运维平台等包裹,进行预警操作。
由于博主公司使用的服务器全部为DELL PowerEdge系列的,因此博主这里将以如何对DELL PowerEdge系列服务器硬件进行监控这一实际案例为主。
一、OMSA 介绍
DELL OMSA的全称为Dell Openmanage Server Administrator,它是戴尔公司基于自主研发力量开发的IT系统管理解决方案,通过与业内领先的系统管理解决方案供应商密切配合,在深入了解用户对系统管理需求的基础上,OMSA系统管理方案可以全面解决系统管理人员最关心的系统部署、系统监控和系统变更三大系统管理问题。它通过提供以下两种方式来对本地和远程的服务器进行管理和监控。
1、基于Web浏览器的集成图形用户界面(GUI)
2、操作系统的命令行界面(CLI)工具
大家可能对DELL的IDRAC更熟悉一点,OMSA其实就是 IDRAC企业版的开源社区版。这里列出IDRAC和OMSA的web界面,两者看着非常相似,功能上也是非常相似。
IDRAC:
OMSA:
二、OMSA 部署
下面介绍如何安装使用OMSA。由于我们公司主要使用的是红帽系列的产品,因此这里列举RHEL6和CentOS6部署方式。
RHEL 6.X 平台安装 OMSA:
在RHEL6上部署OMSA,由于DELL售后那边发给我过资料,这里我就不在重复写了,贴上DELL售后的资料,非常的详尽。
最新版本的OMSA 8.1下载链接:http://downloads.dell.com/FOLDER02876154M/1/OM-SrvAdmin-Dell-Web-LX-8.1.0-1518.RHEL6.x86_64_A00.tar.gz
安装链接:http://zh.community.dell.com/techcenter/systems-management/w/wiki/561.omsalinux
CentOS 6.X 平台安装 OMSA:
CentOS 6.x系列的,其实也可以使用和RHEL6一样的方式安装,只不过需要修改脚本里面的一些东西。我们可以使用dell官方提供的yum源,直接使用yum来在CentOS上安装OMSA。
下面附上安装步骤:
1、安装dell的yum源
1
|
[root@kvm-phy04-jz ~] # wget -q -O - http://linux.dell.com/repo/hardware/latest/bootstrap.cgi | bash |
2、安装必要的2个包
1
|
[root@kvm-phy04-jz ~] # yum -y install OpenIPMI srvadmin-all |
3、启动服务
1
|
[root@kvm-phy04-jz ~] # /opt/dell/srvadmin/sbin/srvadmin-services.sh start |
4、设置开机自启动
1
2
3
4
5
6
|
[root@kvm-phy04-jz ~] # /opt/dell/srvadmin/sbin/srvadmin-services.sh enable racsvc 0:off 1:off 2:on 3:on 4:on 5:on 6:off dataeng 0:off 1:off 2:on 3:on 4:on 5:on 6:off dsm_om_shrsvc 0:off 1:off 2:on 3:on 4:on 5:on 6:off dsm_om_connsvc 0:off 1:off 2:off 3:on 4:off 5:on 6:off ipmi 0:off 1:off 2:on 3:on 4:on 5:on 6:off |
5、通过web访问OMSA界面
使用浏览器访问https://ip_address:1311打开OMSA的web页面。这里注意,一定要使用https去访问,否则页面会打不开。
注意 : 这里的用户名和密码使用的是系统的用户名密码,这地方和IDRAC是不一样的。
这样子,OMSA就安装好了,web管理页面也可以使用了。
精简OMSA组件:
虽然 OMSA 的web端功能很强大,但是在工作当中,我们的主要目的并非是使用它的web端,更多时间只是想使用它提供的一些命令行工具来获取服务器主要组件的相关信息,比如CPU、内存、硬盘、陈列和主板温度之类的健康状况。因此,我们没有必要安装OMSA的web端。
下面就是卸载OMSA的web端相关的包:
1
|
[root@kvm-phy04-jz ~] # yum remove -y srvadmin-tomcat srvadmin-jre srvadmin-smweb |
删除相关的无用内容:
1
|
[root@kvm-phy04-jz ~] # rm -rf /opt/dell/srvadmin/lib64/openmanage/apache-tomcat |
上述操作执行完毕之后,OMSA的web端也就基本清理干净了,这里列出系统中安装的和OMSA相关的包:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
45
|
[root@kvm-phy04-jz ~] # rpm -qa|grep srvadmin srvadmin-omcommon-8.1.0-4.92.1.el6.x86_64 srvadmin-xmlsup-8.1.0-4.91.1.el6.x86_64 srvadmin-storelib-8.1.0-4.139.1.el6.x86_64 srvadmin-storage-cli-8.1.0-4.138.2.el6.x86_64 srvadmin-racdrsc-8.1.0-4.4.7.el6.x86_64 srvadmin-storage-snmp-8.1.0-4.138.2.el6.x86_64 srvadmin-storageservices-cli-8.1.0-4.3.1.el6.x86_64 srvadmin-oslog-8.1.0-4.85.1.el6.x86_64 srvadmin-isvc-snmp-8.1.0-4.38.1.el6.x86_64 srvadmin-rac4-8.1.0-4.1.127.el6.x86_64 srvadmin-server-cli-8.1.0-4.3.1.el6.x86_64 srvadmin-omilcore-8.1.0-4.85.1.el6.x86_64 srvadmin-racadm4-8.1.0-4.1.127.el6.x86_64 srvadmin-deng-8.1.0-4.8.1.el6.x86_64 srvadmin-hapi-8.1.0-4.10.2.el6.x86_64 srvadmin-ominst-8.1.0-4.94.3.el6.x86_64 srvadmin-omacore-8.1.0-4.94.3.el6.x86_64 srvadmin-storelib-sysfs-8.1.0-4.1.1.el6.x86_64 srvadmin-nvme-8.1.0-4.139.1.el6.x86_64 srvadmin-storage-8.1.0-4.138.2.el6.x86_64 srvadmin-sysfsutils-8.1.0-4.1.1.el6.x86_64 srvadmin-deng-snmp-8.1.0-4.8.1.el6.x86_64 srvadmin-racadm5-8.1.0-4.1.128.el6.x86_64 srvadmin-idracadm-8.1.0-4.4.7.el6.x86_64 srvadmin-racsvc-8.1.0-4.1.127.el6.x86_64 srvadmin-idrac-ivmcli-8.1.0-4.6.3.el6.x86_64 srvadmin-idrac-8.1.0-4.4.7.el6.x86_64 srvadmin-storageservices-snmp-8.1.0-4.3.1.el6.x86_64 srvadmin-rac4-populator-8.1.0-4.1.127.el6.x86_64 srvadmin-cm-8.1.0-4.1.249.el6.x86_64 srvadmin-server-snmp-8.1.0-4.3.1.el6.x86_64 srvadmin-itunnelprovider-8.1.0-4.27.1.el6.x86_64 srvadmin-omacs-8.1.0-4.92.1.el6.x86_64 srvadmin-isvc-8.1.0-4.38.1.el6.x86_64 srvadmin-smcommon-8.1.0-4.138.2.el6.x86_64 srvadmin-realssd-8.1.0-4.139.1.el6.x86_64 srvadmin-rac-components-8.1.0-4.4.7.el6.x86_64 srvadmin-argtable2-8.1.0-4.5.1.el6.x86_64 srvadmin-rac5-8.1.0-4.1.128.el6.x86_64 srvadmin-idrac-snmp-8.1.0-4.4.7.el6.x86_64 srvadmin-idrac-vmcli-8.1.0-4.5.1.el6.x86_64 srvadmin-storageservices-8.1.0-4.3.1.el6.x86_64 srvadmin-base-8.1.0-4.3.1.el6.x86_64 srvadmin-standardAgent-8.1.0-4.3.1.el6.x86_64 |
三、OMSA 使用指南
由于 OMSA 的 web 端已经被我们卸载掉了。因此我们目前想要看到服务器的相关硬件信息就需要使用命令行的方式获取了。那么,这里就介绍如何使用命令获取服务器硬件信息。
OMSA自带了一些工具来提供给我们命令行的查询和设置接口,这里主要介绍两个,一个是omreport,另一个是omconfig。omreport是用来查询服务器各种硬件状态,omconfig是用来设置硬件的一些属性的。
我在这里仅列出这两个命令的常用几个命令,更多的命令详情大家可以去如下两个网站查询:
1
2
|
1、http: //www .sxszjzx.com/~t096 /manual/sc/Dosa/CLI/report .htm 2、http: //topics-cdn .dell.com /pdf/dell-opnmang-srvr-admin-v8 .1_User's%20Guide_en-us.pdf |
命令指南:
1
2
3
4
5
6
7
8
9
10
11
12
13
|
/opt/dell/srvadmin/bin/omreport chassis # 显示所有主要组件的常规状态 /opt/dell/srvadmin/bin/omreport chassis memory # 显示内存信息 /opt/dell/srvadmin/sbin/omreport chassis temps # 显示系统主要组件的温度 /opt/dell/srvadmin/bin/omreport storage adisk controller=0 # 查看磁盘陈列中的硬盘状态 /opt/dell/srvadmin/bin/omreport storage pdisk controller=0 # 查看物理磁盘信息 /opt/dell/srvadmin/bin/omreport storage vdisk controller=0 # 查看虚拟硬盘的状态 /opt/dell/srvadmin/bin/omreport storage controller # 查看控制器(即RAID卡)的属性 /opt/dell/srvadmin/bin/omreport storage channel controller=0 # 查看通道的属性 /opt/dell/srvadmin/bin/omreport storage enclosure controller=0 # 查看enclosure的属性 /opt/dell/srvadmin/bin/omreport storage battery # 查看电池属性 /opt/dell/srvadmin/bin/omconfig storage controller action=setrebuildrate controller=0 rate=100 # 调整rebuild的速度 /opt/dell/srvadmin/bin/omconfig storage vdisk action=changepolicy controller=0 vdisk=0 readpolicy=ara # 修改raid的读策略 /opt/dell/srvadmin/bin/omconfig storage vdisk action=changepolicy controller=0 vdisk=0 writepolicy=fwb # 修改raid的写策略 |
命令范例:
1、查看系统主要组件的温度
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
|
[root@kvm-phy04-jz ~] # /opt/dell/srvadmin/bin/omreport chassis temps Temperature Probes Information ------------------------------------ Main System Chassis Temperatures: Ok ------------------------------------ Index : 0 Status : Ok Probe Name : System Board Inlet Temp Reading : 26.0 C Minimum Warning Threshold : 3.0 C Maximum Warning Threshold : 42.0 C Minimum Failure Threshold : -7.0 C Maximum Failure Threshold : 47.0 C Index : 1 Status : Ok Probe Name : System Board Exhaust Temp Reading : 31.0 C Minimum Warning Threshold : 8.0 C Maximum Warning Threshold : 70.0 C Minimum Failure Threshold : 3.0 C Maximum Failure Threshold : 75.0 C Index : 2 Status : Ok Probe Name : CPU1 Temp Reading : 36.0 C Minimum Warning Threshold : 8.0 C Maximum Warning Threshold : 79.0 C Minimum Failure Threshold : 3.0 C Maximum Failure Threshold : 84.0 C Index : 3 Status : Ok Probe Name : CPU2 Temp Reading : 30.0 C Minimum Warning Threshold : 8.0 C Maximum Warning Threshold : 79.0 C Minimum Failure Threshold : 3.0 C Maximum Failure Threshold : 84.0 C |
2、查看虚拟硬盘的状态
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
|
[root@kvm-phy04-jz ~] # /opt/dell/srvadmin/bin/omreport storage vdisk controller=0 List of Virtual Disks on Controller PERC H310 Mini (Embedded) Controller PERC H310 Mini (Embedded) ID : 0 Status : Ok Name : cislunar_space State : Ready Hot Spare Policy violated : Not Assigned Encrypted : Not Applicable Layout : RAID-10 Size : 836.63 GB (898319253504 bytes) T10 Protection Information Status : No Associated Fluid Cache State : Not Applicable Device Name : /dev/sda Bus Protocol : SAS Media : HDD Read Policy : No Read Ahead Write Policy : Write Through Cache Policy : Not Applicable Stripe Element Size : 64 KB Disk Cache Policy : Disabled |
3、查看控制器(即RAID卡)的属性
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
39
40
41
42
43
44
|
[root@kvm-phy04-jz ~] # /opt/dell/srvadmin/bin/omreport storage controller Controller PERC H310 Mini(Embedded) Controller ID : 0 Status : Non-Critical Name : PERC H310 Mini Slot ID : Embedded State : Degraded Firmware Version : 20.12.1-0002 Minimum Required Firmware Version : 20.13.1-0001 Driver Version : 06.700.06.00-rh1 Minimum Required Driver Version : Not Applicable Storport Driver Version : Not Applicable Minimum Required Storport Driver Version : Not Applicable Number of Connectors : 2 Rebuild Rate : 30% BGI Rate : 30% Check Consistency Rate : 30% Reconstruct Rate : 30% Alarm State : Not Applicable Cluster Mode : Not Applicable SCSI Initiator ID : Not Applicable Cache Memory Size : 0 MB Patrol Read Mode : Auto Patrol Read State : Stopped Patrol Read Rate : 30% Patrol Read Iterations : 0 Abort Check Consistency on Error : Disabled Allow Revertible Hot Spare and Replace Member : Enabled Load Balance : Not Applicable Auto Replace Member on Predictive Failure : Disabled Redundant Path view : Not Applicable CacheCade Capable : Not Applicable Persistent Hot Spare : Disabled Encryption Capable : Not Applicable Encryption Key Present : Not Applicable Encryption Mode : Not Applicable Preserved Cache : Not Applicable Spin Down Unconfigured Drives : Disabled Spin Down Hot Spares : Disabled Spin Down Configured Drives : Not Applicable Automatic Disk Power Saving (Idle C) : Not Applicable T10 Protection Information Capable : No
|