Nagios页面介绍(四)
四、nagios页面介绍
Nagios 4.0.8版本登录后图片
General(常用)
Home(主页)和Documentation(文档)内容连接nagios官网,主要介绍nagios的内容。
Current Status
Tactical Overview (总览)
这个页面上显示了所有主机的状态信息可以看到停机own、不可达Unreachble、UP启动、等待返回状态pending。同时列出了所有服务的状态信息。所谓服务并非单纯指狭义上的Windows的系统服务,而是该设备上的进程、资源、系统服务等等的一个统称。
Network Outages显示网络中断的统计,如果有中断信息会在下面显示
Network Health显示网络健康状况,会列出主机和服务状况,以绿色进度条显示,进度条满格显示代表主机和服务状况正常。
Hosts:
down代表宕机
Unreachable代表不可到达
UP代表主机在线
Pending表示该主机刚被纳入监控范围,等待第一次检测结果返回中。
Services:
Critical代表紧急告警
Warning代表警告告警
Unknown代表未知告警
Ok代表服务运行正常
Pending代表待定
Monitoring Features:
Flap Detection代表抖动检测;
Notifications代表对外发布告警信息
Event Handlers代表事件句柄
Active Checks代表主动检测
Passive Checks代表被动检查
Map(拓扑图)
这个页面是2D网络拓扑图,列出所有hosts中的状态
通过拓扑图可以查看当前主机的一些信息,包括地址、主机名、状态、多少服务以及服务是否正常
Hosts (主机)
Host 显示的是主机详细信息,用ping探测的。如下图所示:
- Current Network Status:列出当前网络的状态,上次更新的日期以及登录的用户名称等;
- Host Status Totals:显示主机状态的统计信息,相应的统计信息会在下面列出,具体包括:UP,DOWN,Unreachable,Pending,All Problems,All Types; 可双击相应的选项进入查看。
- Service Status Totals:显示服务状态的统计信息,相应的信息会在下面列出;具体包括:UP,DOWN,Unreachable,Critical,Pending,All Problems,All Types;可双击相应的选项进入查看。
- Host Status Details For All Hosts:列出所有的主机的详细信息,包括:Host,Status,Last check,Duration,Status Information。如果想查看相关信息,我们可以点击Host或Service列出的主机和服务名称进行查看。
- Host:列出所有的主机名称。
- Status:列出所有主机的存活状态。
- Last Check:上次检测时间。
- Duration:运行持续时间。
- Status Information:相关状态信息。
点击上图中Host所列的任意一主机名称如下图所示:
针对图中“Host State Information”所列字段信息的说明:
- Host Status:主机存活的状态,UP代表存活,DOWN代表宕机。
- Status Information:状态信息
- Performance Data:性能数据信息
- Current Attempt:目前的尝试次数
- Last Check Time:最后检测时间
- Check Type:检测类型
- Check Latency/Duration:延时检测/持续检测
- Next Scheduled Active Check:下次计划主动检测时间
- Last State Change:上次状态改变时间
- Last notification:上次告警时间
- Is This Host Flapping:主机是否抖动,即反复出现故障,或刚从故障中恢复。
- In Scheduled Downtime:是否计划宕机
- Last Update:上次更新时间
针对图中“Host Commands”所列字段信息的说明:
- Disable active checks of this host:不主动检测这台主机
- Re-schedule the next check of this host:下一次计划检测这个主机,选中后可以自定义时间和是否强制检测,提交后执行即生效。这里默认的检测时间是距当前时间
- Submit passive check result for this host:为这个主机提交被动检测结果
- Stop accepting passive checks for this host:停止接受被动检测此主机
- Stop obsessing over this host:停止被困扰的主机
- Disable notifications for this host:不显示主机告警通知
- Send custom host notification:发送自定义主机告警
- Schedule downtime for this host:为主机提供停机功能,此功能为主机自定义停机时间,维护主机或者割接时常用到此功能,在指定的停机时间内,将不会发出通知;当预定的停机时间到期时,将发出通知些主机。里面会有起始时间和终止时间,可以选择固定或弹性停机,此功能需重点掌握,比较常用。
- Schedule downtime for allservice on this host:为该主机的所有服务提供停机功能,此功能为该主机的所有服务自定义停机时间,维护主机或者割接时常用到此功能,在指定的停机时间内,将不会发出通知;当预定的停机时间到期时,将发出通知些服务。里面会有起始时间和终止时间,可以选择固定或弹性停机,此功能需重点掌握,比较常用。
- Disable notifications for all services on this host:本机上的所有服务不启用告警
- Enable notifications for all services on this host:本机上的所有服务启用告警
- Schedule a check of all services on this host:计划为本机检测所有的服务,用来排定下次检查所有服务指定的主机,可以强制检查。
- Disable checks of all services on this host:禁用为本机检测所有的服务。
- Enable checks of all services on this host:与上面的相反。
- Disable event handler for this host:用来暂时阻止Nagios主机运行事件处理程序
- Disable flap detection for this host:停止本机抖动检测
Services(服务)
Services 显示的是所有服务详细信息。如下图所示:
- Current Network Status:列出当前网络的状态,上次更新的日期以及登录的用户名称等;
- Host Status Totals:显示主机状态的统计信息,相应的统计信息会在下面列出,具体包括:UP,DOWN,Unreachable,Pending,All Problems,All Types; 可双击相应的选项进入查看。
- Service Status Totals:显示服务状态的统计信息,相应的信息会在下面列出;具体包括:UP,DOWN,Unreachable,Critical,Pending,All Problems,All Types;可双击相应的选项进入查看。
- Service Status Details For All Hosts:列出所有的主机和服务相关状况的详细信息,包括:Host,Service,Status,Last check,Duration, Attempt,Status Information。如果想查看相关信息,我们可以点击Host或Service列出的主机和服务名称进行查看。
点击上图中Host所列的任意一Servive名称如下图所示:
针对图中“Service State Information”所列字段信息的说明:
- Current Status:服务的状态,OK代表正常。
- Status Information:状态信息
- Performance Data:性能数据信息
- Current Attempt:目前的尝试次数
- Last Check Time:最后检测时间
- Check Type:检测类型
- Check Latency/Duration:延时检测/持续检测
- Next Scheduled Active Check:下次计划主动检测时间
- Last State Change:上次状态改变时间
- Last notification:上次告警时间
- Is This Host Flapping:主机是否抖动,即反复出现故障,或刚从故障中恢复。
- In Scheduled Downtime:是否计划宕机
- Last Update:上次更新时间
针对图中“Service Commands”所列字段信息的说明:
- Disable active checks of this service:不主动检测这个服务
- Re-schedule the next check of this service:下一次计划检测这个服务,选中后可以自定义时间和是否强制检测,提交后执行即生效。这里默认的检测时间是距当前时间
- Submit passive check result for this service:为这个服务提交被动检测结果
- Stop accepting passive checks for this service:停止接受被动检测此服务
- Stop obsessing over this service:停止被困扰的服务
- Disable notifications for this service:不显示本服务告警通知
- Send custom host notification:发送自定义主机告警
- Schedule downtime for this service:为本服务提供停机功能,此功能为服务自定义停机时间,维护主机或者割接时常用到此功能,在指定的停机时间内,将不会发出通知;当预定的停机时间到期时,将发出通知些主机。里面会有起始时间和终止时间,可以选择固定或弹性停机,此功能需重点掌握,比较常用。
- Disable event handler for this service :用来暂时阻止Nagios主机运行事件处理程序
- Disable flap detection for this service:停止本服务抖动检测
Host Groups(主机组)
- Host:主机名称。
- Status:该主机存活状态。
- Service:显示服务检测结果。
- Actions:下面两个图标为快捷方式。
Summary (汇总)
- Host Group:主机组名称。
- Host Status Summary:该主机组存活状态。
- Service Status Summary:该主机组服务存活状态。
Grid (表格)
- Host:主机名称,可点击进入查看详细信息。
- Service:服务名称,可点击进入查看详细信息。
- Actions:下面两个图标为快捷方式。
Service Groups (服务组)
Service Groups说明同Host Groups,只是将Service Groups名称变成Host Groups而已,没有本质区别,具体说明请参考Service Groups。我们目前没将服务进行分组,所以关于服务分组的部分全部是空的。
Summary (汇总)
Service Groups Summary说明同Host Groups Summary。
Grid (表格)
Service Groups Grip说明同Host Groups Grip。
Problems (问题故障)
显示主机、服务、网络所有的故障列表
Services (Unhandled) (服务问题)
- Host:主机名称,可点击进入查看详细信息。
- Service:服务名称,可点击进入查看详细信息。
- Status:状态。
- Last Check:上次检测时间。
- Duration:运行持续时间。
- Status Information:相关状态信息。
Hosts (Unhandled) (主机问题)
- Host:主机名称,可点击进入查看详细信息。
- Status:状态。
- Last Check:上次检测时间。
- Duration:运行持续时间。
- Status Information:相关状态信息。
Network Outages (网络中断)
Network Outages 显示网络中断的信息。
Reports(报告)
Availability
Avaiability 此功能生成的报告要比Trends可供选择的种类多些,除了Trends可供选择的功能之外,还包括:对所有主机生成报告、对所有服务生成报告、对Hostgroups和Servicegroups生成报告,下图是对所有主机生成的报告:
下图是对所有服务生成的报告:
Trends
生成报告的趋势,按单个主机或服务来生成,共分为三个步骤:
1.选择主机或服务名称;
2.选择主机或者服务的具体名称;
3.选择报告选项,此选项包括报告的起始和结束时间,初使化状态等;
Alert
History
显示所有主机和服务的历史告警的信息,如下图所示:
Summary
显示相关的告警摘要的信息,可以针对主机,服务,主机群和服务群进行查询,也可以进行跨区域的查询,比如:最近24小时,最近七天,最近一个月等的查询。
Histogram
以告警直方图方式显示,其功能类似Trends选项的功能,只是直方图的方式显示相关的信息,如下图所示:
Notifications
查询当天的告警和恢复告警的信息,也可以按向左的箭头查询上一天或更早的告警信息。如下图所示:
Event Log
按每小时显示Nagios的日志信息,可以按向左的前头查询上一天或更早的信息。如下图所示:
System (系统)
comments
Downtime
本页面提供停机功能,此功能为主机和服务自定义停机时间,维护主机或者割接时常用到此功能,在指定的停机时间内,将不会发出通知;当预定的停机时间到期时,将发出通知告警。里面会有起始时间和终止时间,可以选择固定或弹性停机,此功能需重点掌握,比较常用。
Process Info
本页面提供nagios自身进程信息和管理功能,可以通过此页面停止、重启nagios进程。如下图所示:
Performance Info
本页面提供主机和服务巡检性能信息。如下图所示:
Scheduling Queue
显示所有主机和服务的检测进度队列,通过Actins关闭单个主机或服务检测。如下图所示:
Configuration
显示nagios主机、服务、监控命令、联系人、监控时段等配置信息。如下图所示:
Q&A
1、问题:无法重启
/home/nagios/var目录下objects.cache retention.dat status.dat 删除,重启进程
1、nagios map页面无法访问
查看系统中是否安装了以下的包:gd , ge-devel
l rpm -qa |grep gd
l 确保将上述模块包安装上
l 返回之前编译nagios的目录中重新编译nagios:做configure和make all
l 进入nagios/cgi/目录中查看是否有histogram.cgi跟statusmap.cgi文件,其中statusmap.cfg就是map显示必须的文件,将这两个文件cp到nagios/sbin/中
l 重启nagios,刷新nagios页面
3、Solaris5.10主机 编译nagios-plugins的snmp模块报错
check_snmp.c: In function `main':
check_snmp.c:295: error: `PATH_TO_SNMPGETNEXT' undeclared (first use in this function)
check_snmp.c:295: error: (Each undeclared identifier is reported only once
check_snmp.c:295: error: for each function it appears in.)
make[2]: *** [check_snmp.o] Error 1
make[2]: Leaving directory `/home/nagios/wangjian/nagios-plugins-2.0.3/plugins'
make[1]: *** [all-recursive] Error 1
make[1]: Leaving directory `/home/nagios/wangjian/nagios-plugins-2.0.3'
make: *** [all] Error 2
解决方法:
l 从报错信息中看出snmpgetnext无法找到路径
l 使用root帐号查找snmpgetnext路径,或者下载net-snmp安装
l Configure时指定--with-snmpgetnext-command参数路径,该参数配置snmpgetnext路径
l 重新做configure、make、make install
4、报错xinetd[2907]: FAIL: nrpe per_source_limit from=::ffff:10.11.209.173
原因:客户端xinetd对每个源ip的连接数有限制
修改方法
vi /etc/xinetd.d/nrpe
per_source = UNLIMITED
instances = UNLIMITED
service xinetd restart