Nagios页面介绍(四)

四、nagios页面介绍

Nagios 4.0.8版本登录后图片

General(常用)

Home(主页)和Documentation(文档)内容连接nagios官网,主要介绍nagios的内容。

 

Current Status

Tactical Overview (总览)

 

     这个页面上显示了所有主机的状态信息可以看到停机own、不可达Unreachble、UP启动、等待返回状态pending。同时列出了所有服务的状态信息。所谓服务并非单纯指狭义上的Windows的系统服务,而是该设备上的进程、资源、系统服务等等的一个统称。

Network Outages显示网络中断的统计,如果有中断信息会在下面显示 

 

Network Health显示网络健康状况,会列出主机和服务状况,以绿色进度条显示,进度条满格显示代表主机和服务状况正常。

Hosts:

down代表宕机

Unreachable代表不可到达

UP代表主机在线

Pending表示该主机刚被纳入监控范围,等待第一次检测结果返回中。

Services:

Critical代表紧急告警

Warning代表警告告警

Unknown代表未知告警

Ok代表服务运行正常

Pending代表待定

 

Monitoring Features:

Flap Detection代表抖动检测;

Notifications代表对外发布告警信息

Event Handlers代表事件句柄

Active Checks代表主动检测

Passive Checks代表被动检查

 

Map(拓扑图)

     这个页面是2D网络拓扑图,列出所有hosts中的状态

通过拓扑图可以查看当前主机的一些信息,包括地址、主机名、状态、多少服务以及服务是否正常

Hosts (主机)

Host 显示的是主机详细信息,用ping探测的。如下图所示:

  • Current Network Status:列出当前网络的状态,上次更新的日期以及登录的用户名称等;
  • Host Status Totals:显示主机状态的统计信息,相应的统计信息会在下面列出,具体包括:UP,DOWN,Unreachable,Pending,All Problems,All Types; 可双击相应的选项进入查看。
  • Service Status Totals显示服务状态的统计信息,相应的信息会在下面列出;具体包括:UP,DOWN,Unreachable,Critical,Pending,All Problems,All Types;可双击相应的选项进入查看。
  • Host Status Details For All Hosts列出所有的主机的详细信息,包括:Host,Status,Last check,Duration,Status Information。如果想查看相关信息,我们可以点击Host或Service列出的主机和服务名称进行查看。

  • Host:列出所有的主机名称。
  • Status:列出所有主机的存活状态。
  • Last Check:上次检测时间。
  • Duration:运行持续时间。
  • Status Information:相关状态信息。

点击上图中Host所列的任意一主机名称如下图所示:

针对图中“Host State Information”所列字段信息的说明:

  • Host Status主机存活的状态,UP代表存活,DOWN代表宕机。
  • Status Information状态信息
  • Performance Data性能数据信息
  • Current Attempt目前的尝试次数
  • Last Check Time最后检测时间
  • Check Type检测类型
  • Check Latency/Duration延时检测/持续检测
  • Next Scheduled Active Check下次计划主动检测时间
  • Last State Change上次状态改变时间
  • Last notification上次告警时间
  • Is This Host Flapping主机是否抖动,即反复出现故障,或刚从故障中恢复。
  • In Scheduled Downtime是否计划宕机
  • Last Update上次更新时间

针对图中“Host Commands”所列字段信息的说明:

Services(服务)

Services 显示的是所有服务详细信息。如下图所示:

  • Current Network Status:列出当前网络的状态,上次更新的日期以及登录的用户名称等;
  • Host Status Totals:显示主机状态的统计信息,相应的统计信息会在下面列出,具体包括:UP,DOWN,Unreachable,Pending,All Problems,All Types; 可双击相应的选项进入查看。
  • Service Status Totals显示服务状态的统计信息,相应的信息会在下面列出;具体包括:UP,DOWN,Unreachable,Critical,Pending,All Problems,All Types;可双击相应的选项进入查看。
  • Service Status Details For All Hosts列出所有的主机和服务相关状况的详细信息,包括:Host,Service,Status,Last check,Duration, Attempt,Status Information。如果想查看相关信息,我们可以点击Host或Service列出的主机和服务名称进行查看。

点击上图中Host所列的任意一Servive名称如下图所示:

针对图中“Service State Information”所列字段信息的说明:

  • Current Status服务的状态,OK代表正常。
  • Status Information状态信息
  • Performance Data性能数据信息
  • Current Attempt目前的尝试次数
  • Last Check Time最后检测时间
  • Check Type检测类型
  • Check Latency/Duration延时检测/持续检测
  • Next Scheduled Active Check下次计划主动检测时间
  • Last State Change上次状态改变时间
  • Last notification上次告警时间
  • Is This Host Flapping主机是否抖动,即反复出现故障,或刚从故障中恢复。
  • In Scheduled Downtime是否计划宕机
  • Last Update上次更新时间

针对图中“Service Commands”所列字段信息的说明:

Host Groups(主机组)

  • Host:主机名称。
  • Status:该主机存活状态。
  • Service:显示服务检测结果。
  • Actions:下面两个图标为快捷方式。

Summary (汇总)

 

  • Host Group:主机组名称。
  • Host Status Summary:该主机组存活状态。
  • Service Status Summary:该主机组服务存活状态。

Grid (表格)

  • Host:主机名称,可点击进入查看详细信息。
  • Service:服务名称,可点击进入查看详细信息。
  • Actions:下面两个图标为快捷方式。

Service Groups (服务组)

Service Groups说明同Host Groups,只是将Service Groups名称变成Host Groups而已,没有本质区别,具体说明请参考Service Groups。我们目前没将服务进行分组,所以关于服务分组的部分全部是空的。

Summary (汇总)

    Service Groups Summary说明同Host Groups Summary。

 

Grid (表格)

Service Groups Grip说明同Host Groups Grip。

 

Problems (问题故障)

    显示主机、服务、网络所有的故障列表

Services (Unhandled) (服务问题)

  • Host:主机名称,可点击进入查看详细信息。
  • Service:服务名称,可点击进入查看详细信息。
  • Status:状态。
  • Last Check:上次检测时间。
  • Duration:运行持续时间。
  • Status Information:相关状态信息。

Hosts (Unhandled) (主机问题)

  • Host:主机名称,可点击进入查看详细信息。
  • Status:状态。
  • Last Check:上次检测时间。
  • Duration:运行持续时间。
  • Status Information:相关状态信息。

Network Outages (网络中断)

   Network Outages 显示网络中断的信息。

Reports(报告)

Availability

Avaiability 此功能生成的报告要比Trends可供选择的种类多些,除了Trends可供选择的功能之外,还包括:对所有主机生成报告、对所有服务生成报告、对Hostgroups和Servicegroups生成报告,下图是对所有主机生成的报告:

下图是对所有服务生成的报告:

Trends

生成报告的趋势,按单个主机或服务来生成,共分为三个步骤:

1.选择主机或服务名称;

2.选择主机或者服务的具体名称;

3.选择报告选项,此选项包括报告的起始和结束时间,初使化状态等;

Alert

History

显示所有主机和服务的历史告警的信息,如下图所示:

Summary

显示相关的告警摘要的信息,可以针对主机,服务,主机群和服务群进行查询,也可以进行跨区域的查询,比如:最近24小时,最近七天,最近一个月等的查询。

Histogram

      以告警直方图方式显示,其功能类似Trends选项的功能,只是直方图的方式显示相关的信息,如下图所示:

Notifications

    查询当天的告警和恢复告警的信息,也可以按向左的箭头查询上一天或更早的告警信息。如下图所示:

Event Log

   按每小时显示Nagios的日志信息,可以按向左的前头查询上一天或更早的信息。如下图所示:

System (系统)

comments

Downtime

    本页面提供停机功能,此功能为主机和服务自定义停机时间,维护主机或者割接时常用到此功能,在指定的停机时间内,将不会发出通知;当预定的停机时间到期时,将发出通知告警。里面会有起始时间和终止时间,可以选择固定或弹性停机,此功能需重点掌握,比较常用。

Process Info

     本页面提供nagios自身进程信息和管理功能,可以通过此页面停止、重启nagios进程。如下图所示:

Performance Info

    本页面提供主机和服务巡检性能信息。如下图所示:

 

Scheduling Queue

    显示所有主机和服务的检测进度队列,通过Actins关闭单个主机或服务检测。如下图所示:

Configuration

    显示nagios主机、服务、监控命令、联系人、监控时段等配置信息。如下图所示:

 

 Q&A

1、问题:无法重启

/home/nagios/var目录下objects.cache  retention.dat status.dat 删除,重启进程

 

1、nagios map页面无法访问

查看系统中是否安装了以下的包:gd , ge-devel

l  rpm -qa |grep gd

l  确保将上述模块包安装上

l  返回之前编译nagios的目录中重新编译nagios:做configure和make all

l  进入nagios/cgi/目录中查看是否有histogram.cgi跟statusmap.cgi文件,其中statusmap.cfg就是map显示必须的文件,将这两个文件cp到nagios/sbin/中

l  重启nagios,刷新nagios页面

 

3、Solaris5.10主机 编译nagios-plugins的snmp模块报错

check_snmp.c: In function `main':

check_snmp.c:295: error: `PATH_TO_SNMPGETNEXT' undeclared (first use in this function)

check_snmp.c:295: error: (Each undeclared identifier is reported only once

check_snmp.c:295: error: for each function it appears in.)

make[2]: *** [check_snmp.o] Error 1

make[2]: Leaving directory `/home/nagios/wangjian/nagios-plugins-2.0.3/plugins'

make[1]: *** [all-recursive] Error 1

make[1]: Leaving directory `/home/nagios/wangjian/nagios-plugins-2.0.3'

make: *** [all] Error 2   

解决方法:

l  从报错信息中看出snmpgetnext无法找到路径

l  使用root帐号查找snmpgetnext路径,或者下载net-snmp安装

l  Configure时指定--with-snmpgetnext-command参数路径,该参数配置snmpgetnext路径

l  重新做configure、make、make install

 

4、报错xinetd[2907]: FAIL: nrpe per_source_limit from=::ffff:10.11.209.173

原因:客户端xinetd对每个源ip的连接数有限制

修改方法

vi /etc/xinetd.d/nrpe

        per_source = UNLIMITED

        instances = UNLIMITED

service xinetd restart

 

posted @ 2016-05-27 12:20  shhnwangjian  阅读(1062)  评论(1编辑  收藏  举报