Nagios页面介绍（四）

四、nagios页面介绍

Nagios 4.0.8版本登录后图片

General（常用）

Home（主页）和Documentation（文档）内容连接nagios官网，主要介绍nagios的内容。

Current Status

Tactical Overview （总览）

这个页面上显示了所有主机的状态信息可以看到停机own、不可达Unreachble、UP启动、等待返回状态pending。同时列出了所有服务的状态信息。所谓服务并非单纯指狭义上的Windows的系统服务，而是该设备上的进程、资源、系统服务等等的一个统称。

Network Outages显示网络中断的统计，如果有中断信息会在下面显示

Network Health显示网络健康状况，会列出主机和服务状况，以绿色进度条显示，进度条满格显示代表主机和服务状况正常。



Hosts：

down代表宕机

Unreachable代表不可到达

UP代表主机在线

Pending表示该主机刚被纳入监控范围，等待第一次检测结果返回中。



Services：

Critical代表紧急告警

Warning代表警告告警

Unknown代表未知告警

Ok代表服务运行正常

Pending代表待定

Monitoring Features：

Flap Detection代表抖动检测；

Notifications代表对外发布告警信息

Event Handlers代表事件句柄

Active Checks代表主动检测

Passive Checks代表被动检查

Map（拓扑图）

这个页面是2D网络拓扑图，列出所有hosts中的状态

通过拓扑图可以查看当前主机的一些信息，包括地址、主机名、状态、多少服务以及服务是否正常

Hosts （主机）

Host 显示的是主机详细信息，用ping探测的。如下图所示：

Current Network Status：列出当前网络的状态，上次更新的日期以及登录的用户名称等；
Host Status Totals：显示主机状态的统计信息，相应的统计信息会在下面列出，具体包括：UP，DOWN，Unreachable，Pending，All Problems，All Types；可双击相应的选项进入查看。
Service Status Totals：显示服务状态的统计信息，相应的信息会在下面列出；具体包括：UP，DOWN，Unreachable，Critical，Pending，All Problems，All Types；可双击相应的选项进入查看。
Host Status Details For All Hosts：列出所有的主机的详细信息，包括：Host,Status,Last check,Duration,Status Information。如果想查看相关信息，我们可以点击Host或Service列出的主机和服务名称进行查看。

Host：列出所有的主机名称。
Status：列出所有主机的存活状态。
Last Check：上次检测时间。
Duration：运行持续时间。
Status Information：相关状态信息。

点击上图中Host所列的任意一主机名称如下图所示：

针对图中“Host State Information”所列字段信息的说明：

Host Status：主机存活的状态，UP代表存活，DOWN代表宕机。
Status Information：状态信息
Performance Data：性能数据信息
Current Attempt：目前的尝试次数
Last Check Time：最后检测时间
Check Type：检测类型
Check Latency/Duration：延时检测/持续检测
Next Scheduled Active Check：下次计划主动检测时间
Last State Change：上次状态改变时间
Last notification：上次告警时间
Is This Host Flapping：主机是否抖动，即反复出现故障，或刚从故障中恢复。
In Scheduled Downtime：是否计划宕机
Last Update：上次更新时间

针对图中“Host Commands”所列字段信息的说明：

Disable active checks of this host：不主动检测这台主机
Re-schedule the next check of this host：下一次计划检测这个主机，选中后可以自定义时间和是否强制检测，提交后执行即生效。这里默认的检测时间是距当前时间
Submit passive check result for this host：为这个主机提交被动检测结果
Stop accepting passive checks for this host：停止接受被动检测此主机
Stop obsessing over this host：停止被困扰的主机
Disable notifications for this host：不显示主机告警通知
Send custom host notification：发送自定义主机告警
Schedule downtime for this host：为主机提供停机功能，此功能为主机自定义停机时间，维护主机或者割接时常用到此功能，在指定的停机时间内，将不会发出通知；当预定的停机时间到期时，将发出通知些主机。里面会有起始时间和终止时间，可以选择固定或弹性停机，此功能需重点掌握，比较常用。
Schedule downtime for allservice on this host：为该主机的所有服务提供停机功能，此功能为该主机的所有服务自定义停机时间，维护主机或者割接时常用到此功能，在指定的停机时间内，将不会发出通知；当预定的停机时间到期时，将发出通知些服务。里面会有起始时间和终止时间，可以选择固定或弹性停机，此功能需重点掌握，比较常用。
Disable notifications for all services on this host：本机上的所有服务不启用告警
Enable notifications for all services on this host：本机上的所有服务启用告警
Schedule a check of all services on this host：计划为本机检测所有的服务，用来排定下次检查所有服务指定的主机，可以强制检查。
Disable checks of all services on this host：禁用为本机检测所有的服务。
Enable checks of all services on this host：与上面的相反。
Disable event handler for this host：用来暂时阻止Nagios主机运行事件处理程序
Disable flap detection for this host：停止本机抖动检测

Services（服务）

Services 显示的是所有服务详细信息。如下图所示：

Current Network Status：列出当前网络的状态，上次更新的日期以及登录的用户名称等；
Host Status Totals：显示主机状态的统计信息，相应的统计信息会在下面列出，具体包括：UP，DOWN，Unreachable，Pending，All Problems，All Types；可双击相应的选项进入查看。
Service Status Totals：显示服务状态的统计信息，相应的信息会在下面列出；具体包括：UP，DOWN，Unreachable，Critical，Pending，All Problems，All Types；可双击相应的选项进入查看。
Service Status Details For All Hosts：列出所有的主机和服务相关状况的详细信息，包括：Host,Service,Status,Last check,Duration, Attempt,Status Information。如果想查看相关信息，我们可以点击Host或Service列出的主机和服务名称进行查看。

点击上图中Host所列的任意一Servive名称如下图所示：

针对图中“Service State Information”所列字段信息的说明：

Current Status：服务的状态，OK代表正常。
Status Information：状态信息
Performance Data：性能数据信息
Current Attempt：目前的尝试次数
Last Check Time：最后检测时间
Check Type：检测类型
Check Latency/Duration：延时检测/持续检测
Next Scheduled Active Check：下次计划主动检测时间
Last State Change：上次状态改变时间
Last notification：上次告警时间
Is This Host Flapping：主机是否抖动，即反复出现故障，或刚从故障中恢复。
In Scheduled Downtime：是否计划宕机
Last Update：上次更新时间

针对图中“Service Commands”所列字段信息的说明：

Disable active checks of this service：不主动检测这个服务
Re-schedule the next check of this service：下一次计划检测这个服务，选中后可以自定义时间和是否强制检测，提交后执行即生效。这里默认的检测时间是距当前时间
Submit passive check result for this service：为这个服务提交被动检测结果
Stop accepting passive checks for this service：停止接受被动检测此服务
Stop obsessing over this service：停止被困扰的服务
Disable notifications for this service：不显示本服务告警通知
Send custom host notification：发送自定义主机告警
Schedule downtime for this service：为本服务提供停机功能，此功能为服务自定义停机时间，维护主机或者割接时常用到此功能，在指定的停机时间内，将不会发出通知；当预定的停机时间到期时，将发出通知些主机。里面会有起始时间和终止时间，可以选择固定或弹性停机，此功能需重点掌握，比较常用。
Disable event handler for this service ：用来暂时阻止Nagios主机运行事件处理程序
Disable flap detection for this service：停止本服务抖动检测

Host Groups（主机组）

Host：主机名称。
Status：该主机存活状态。
Service：显示服务检测结果。
Actions：下面两个图标为快捷方式。

Summary （汇总）

Host Group：主机组名称。
Host Status Summary：该主机组存活状态。
Service Status Summary：该主机组服务存活状态。

Grid (表格)

Host：主机名称，可点击进入查看详细信息。
Service：服务名称，可点击进入查看详细信息。
Actions：下面两个图标为快捷方式。

Service Groups （服务组）

Service Groups说明同Host Groups，只是将Service Groups名称变成Host Groups而已，没有本质区别，具体说明请参考Service Groups。我们目前没将服务进行分组，所以关于服务分组的部分全部是空的。

Summary （汇总）

Service Groups Summary说明同Host Groups Summary。

Grid (表格)

Service Groups Grip说明同Host Groups Grip。

Problems （问题故障）

显示主机、服务、网络所有的故障列表

Services (Unhandled) （服务问题）

Host：主机名称，可点击进入查看详细信息。
Service：服务名称，可点击进入查看详细信息。
Status：状态。
Last Check：上次检测时间。
Duration：运行持续时间。
Status Information：相关状态信息。

Hosts (Unhandled) （主机问题）

Host：主机名称，可点击进入查看详细信息。
Status：状态。
Last Check：上次检测时间。
Duration：运行持续时间。
Status Information：相关状态信息。

Network Outages （网络中断）

Network Outages 显示网络中断的信息。

Reports（报告）

Availability

Avaiability 此功能生成的报告要比Trends可供选择的种类多些，除了Trends可供选择的功能之外，还包括：对所有主机生成报告、对所有服务生成报告、对Hostgroups和Servicegroups生成报告，下图是对所有主机生成的报告：

下图是对所有服务生成的报告：

Trends

生成报告的趋势，按单个主机或服务来生成，共分为三个步骤：

1.选择主机或服务名称；

2.选择主机或者服务的具体名称；

3.选择报告选项，此选项包括报告的起始和结束时间，初使化状态等；

Alert

History

显示所有主机和服务的历史告警的信息，如下图所示：

Summary

显示相关的告警摘要的信息，可以针对主机，服务，主机群和服务群进行查询，也可以进行跨区域的查询，比如：最近24小时，最近七天，最近一个月等的查询。

Histogram

以告警直方图方式显示，其功能类似Trends选项的功能，只是直方图的方式显示相关的信息，如下图所示：

Notifications

查询当天的告警和恢复告警的信息，也可以按向左的箭头查询上一天或更早的告警信息。如下图所示：

Event Log

按每小时显示Nagios的日志信息，可以按向左的前头查询上一天或更早的信息。如下图所示：

System （系统）

comments

Downtime

本页面提供停机功能，此功能为主机和服务自定义停机时间，维护主机或者割接时常用到此功能，在指定的停机时间内，将不会发出通知；当预定的停机时间到期时，将发出通知告警。里面会有起始时间和终止时间，可以选择固定或弹性停机，此功能需重点掌握，比较常用。

Process Info

本页面提供nagios自身进程信息和管理功能，可以通过此页面停止、重启nagios进程。如下图所示：

Performance Info

本页面提供主机和服务巡检性能信息。如下图所示：

Scheduling Queue

显示所有主机和服务的检测进度队列，通过Actins关闭单个主机或服务检测。如下图所示：

Configuration

显示nagios主机、服务、监控命令、联系人、监控时段等配置信息。如下图所示：

Q&A

1、问题：无法重启

/home/nagios/var目录下objects.cache retention.dat status.dat 删除，重启进程

1、nagios map页面无法访问

查看系统中是否安装了以下的包：gd , ge-devel

l rpm -qa |grep gd

l 确保将上述模块包安装上

l 返回之前编译nagios的目录中重新编译nagios：做configure和make all

l 进入nagios/cgi/目录中查看是否有histogram.cgi跟statusmap.cgi文件，其中statusmap.cfg就是map显示必须的文件，将这两个文件cp到nagios/sbin/中

l 重启nagios，刷新nagios页面

3、Solaris5.10主机编译nagios-plugins的snmp模块报错

check_snmp.c: In function `main':

check_snmp.c:295: error: `PATH_TO_SNMPGETNEXT' undeclared (first use in this function)

check_snmp.c:295: error: (Each undeclared identifier is reported only once

check_snmp.c:295: error: for each function it appears in.)

make[2]: *** [check_snmp.o] Error 1

make[2]: Leaving directory `/home/nagios/wangjian/nagios-plugins-2.0.3/plugins'

make[1]: *** [all-recursive] Error 1

make[1]: Leaving directory `/home/nagios/wangjian/nagios-plugins-2.0.3'

make: *** [all] Error 2

解决方法：

l 从报错信息中看出snmpgetnext无法找到路径

l 使用root帐号查找snmpgetnext路径，或者下载net-snmp安装

l Configure时指定--with-snmpgetnext-command参数路径，该参数配置snmpgetnext路径

l 重新做configure、make、make install

4、报错xinetd[2907]: FAIL: nrpe per_source_limit from=::ffff:10.11.209.173

原因:客户端xinetd对每个源ip的连接数有限制

修改方法

vi /etc/xinetd.d/nrpe

per_source = UNLIMITED

instances = UNLIMITED

service xinetd restart

posted @ 2016-05-27 12:20 shhnwangjian 阅读(1062) 评论(1) 编辑收藏举报

刷新页面返回顶部

shhnwangjian