云网管产品架构 探针安装

产品架构 https://help.aliyun.com/document_detail/201622.html

云网管产品架构

云网管CMN产品架构主要分为云上和客户侧节点两部分,具体如下所示:

产品架构

  • 云上服务:远程一站式的管理平台,构建自动化、标准化和智能化运维系统,包括资源管理、网络巡检、网络观测和网络配置等主要模块,通过阿里云中间件和客户侧agent通信完成数据的上收和下发。
  • 客户侧探针:客户侧节点,全协议支持包括SSH/Telnet,Netconf,SNMP等,完成和目标运维网络通道的建立并实现数据加密和压缩的上报与接收,支持运维管理的及时性和稳定性,保证数据安全。

 

 

本文介绍硬件探针版的安装说明。

 

 

硬件规格

您收到官网寄送的硬件后应包含如下配件:

  • 主机
  • 电源线
  • HDMI线

 

安装说明

1.硬件usb连接键盘和鼠标,HDMI线连接一台显示器,如下图接口所示。

硬件盒子接入usb

2.硬件上电,接入电源机器会自动开机进入系统。

3.按照寄送的初始账号登入系统。

4.连接主机到目标网络,如连接到交换机或者防火墙,接口如下图所示。

硬件盒子接网线

5. 配置DNS并可以连接到公网完成配置。

 

探针管理 https://help.aliyun.com/document_detail/201149.html

用户需要在探针管理页面完成硬件探针与云网管实例的绑定操作,只有完成绑定,云上实例和硬件探针才能建立通道,开始云网管对线下网络的运维监控。探针管理同时提供了硬件探针的监控和管理能力,提供了监控和管控插件在线升级的能力。

名词解释:

 

说明

ID

探针ID

主机名

硬件探针的系统名称

IP

硬件探针的IP地址

安全域

用户设置的安全域

状态

初始化:未与硬件探针绑定的状态

执行中:执行绑定,重启/升级任务中

运行中:正常状态

异常:超时状态未上报

CPU使用率

硬件探针最近一分钟的CPU使用率

内存使用率

硬件探针当前的内存使用率

磁盘使用率

硬件探针当前的磁盘使用率

系统版本

硬件探针的系统内核版本

版本

主机管理的版本

更新时间

当前数据采集的时间

 

 

ID

探针ID

主机名

硬件探针的系统名称

IP

硬件探针的IP地址

安全域

用户设置的安全域

状态

初始化:未安装状态

执行中:执行重启/升级任务时的状态

运行中:正常状态

异常:运行异常或超时未上报

版本

管控探针的版本

更新时间

当前数据采集的时间

监控项管理 https://help.aliyun.com/document_detail/200790.html

PING监控

  • 请先完成上述1-5步骤。

  • 选择PING监控的发包数量、发包间隔(ms),推荐设置为每分钟30个包,间隔1000ms。

  • 选择设备形态(网络设备、服务器或IoT设备)。

  • 专线PING监控,需要您选择对本端IP还是对端IP进行探测。

 

SNMP监控

  • 请先完成上述1-5步骤。

  • 选择设备形态(网络设备、服务器或IoT设备)

  • 选择SNMP采集的类型:get、getNext、getBulk、getWalk、snmpwalk。推荐snmpwalk

 

服务器监控

  • 请先完成上述1-5步骤。

  • 进程监控,需要您填入进程关键字(如redis),以及进程启动参数(选填),以便进一步定位到关键进程

  • 脚本监控,需要您填入脚本路径及参数(如 /home/admin/example.sh 参数1 参数2)

 

应用拨测监控

  • 请先完成上述1-5步骤。

  • 检查HTTP服务,需要您填入一个或多个需要监控的域名(如 www.example.com)。

  • TCP PING、UDP PING监控,需要您填入一个或多个需要监控的IP及端口。

  • API监控,需要您填入一个或多个需要监控的域名,以及请求HTTP API的Method(GET、POST)和POST BODY(按需填写,如{"exampleKey":"exampleValue"} )

  • PING监控和PING IPv6监控分别支持对v4地址和v6地址执行ICMP监测,选择监控的发包数量、发包间隔(ms),推荐设置为每分钟30个包,间隔1000ms。

  • MTR诊断支持设置诊断的目标域名或者IP,并可支持特定端口,使用MTR工具完成网络排查。

 

订阅管理 https://help.aliyun.com/document_detail/200955.html

单击创建订阅项按钮,在弹出的对话框中输入或选择所需信息。

  1. 选择订阅项类型:单设备监控项、专线监控项或聚合监控项

  2. 选择对应的监控项

  3. 发送语言选择中文或英文文案

  4. 选择需要订阅的告警状态:CRITICAL或WARNING

  5. 选择告警状态恢复为NORMAL时是否发送通知

  6. 选择订阅项的生效时间,在生效时间之外,订阅项不生效

  7. 选择触发规则:即第一次告警通知满足哪种条件后触发

  8. 选择抑制策略:为防止连续异常时告警通知泛滥,云网管提供了多种告警抑制策略,具体说明如下:

    1. 迭代放缓:迭代放缓策略表示系统将按照逐步放缓的策略发送通知,如第一次发送通知后,2分钟后发送第二条,4分钟后发送第三条、8分钟、16分钟、32分钟逐步增加通知间隔,直至告警恢复或持续一天后清零重新计算,避免告警被遗漏。

    2. 仅异常时发送一次:代表系统只在连续触发CRITICAL或WARNING的第一分钟发送告警,而后进入静默状态,直至告警恢复。

    3. 异常时连续发送三次:代表系统只在连续触发CRITICAL或WARNING的前三分钟发送告警,而后进入静默状态,直至告警恢复。

    4. 每小时发送一次:代表系统只在触发CRITICAL或WARNING期间,每隔一小时发送一次告警,而后进入静默状态,直至告警恢复。

    5. 每两小时发送一次:代表系统只在触发CRITICAL或WARNING期间,每隔两小时发送一次告警,而后进入静默状态,直至告警恢复

聚合数据管理 https://help.aliyun.com/document_detail/200957.html

将单设备监控项采集的数据,通过一定的聚合方式(取和、平均数、最大、最小)计算合并成一个数据。

监控设备连通性 https://help.aliyun.com/document_detail/201124.html
  1. 为监控项定义一个全局唯一的监控项名称,如Ping_Monitor。

  2. 输入监控项描述,详细介绍当前监控项的意图,方便后期维护,如“监控网络设备连通性,采集管理IP的延时和丢包率”。

  3. 选择监控项生效的安全域,如CMN-01,代表从CMN-01安全域的探针发起探测,探测范围是安全域为CMN-01的设备。

  4. 选择设备形态:如网络设备,则代表监控项探测范围为指定安全域下的网络设备,同理可选择IoT设备、服务器。

  5. 输入发包数量(个)和发包间隔(毫秒),默认配置为30个*1000ms,代表每分钟发送30个PING包,间隔1000ms即1秒,共持续PING 30秒。

  6. 打开启用状态,只有在监控项启用时才会发起采集。

  7. 选择解析代码,从模板中选择PING监控指定解析代码。

 

 

如何查看客户端状态和排查插件异常? https://help.aliyun.com/document_detail/201267.html

云网管插件默认每分钟一次心跳注册,如果超过5分钟没有心跳注册,则控制台判定客户端脱管。

客户端脱管的可能原因如下:

  • 客户端程序无法与云网管服务系统通信。

  • 云网管客户端异常退出。

 

posted @ 2023-03-13 13:57  papering  阅读(147)  评论(0编辑  收藏  举报