CERNET中心李信满:透视网络性能管理几大要素

网络管理大致可分成以下四个阶段:设备(网元)管理、故障管理、性能管理、服务和业务管理,这四阶段划分可以反映网络管理的不同深度。性能管理是网络管理五大功能(FCAPS)之一。

  性能管理的主要作用和功能包括:链路及设备的升级规划;网络性能测量和报告;网络可用性和性能保证;确保符合SLA和QoS的要求;帮助网络管理人员更好地理解、管理网络;对网络进行优化等。

  网络性能管理包括以下三个主要因素:

  1、网络性能测量的参数。包括延时、抖动、丢包率、可用率和带宽利用率等;
  2、网络性能管理步骤和流程。包括网络监控和数据采集;网络性能基线(baseline)描述;制定可接受的网络性能阈值,与实际的网络性能进行比较,发现偏离和性能异常;进行必要的网络调整与性能优化;所有这些步骤和措施均以SLA和QoS为核心和目的,周而复始,形成一个闭环,如图1所示。
  3、 网络性能管理所需的基本技术和工具。包括SNMP、Sniffer/netflow、Ping、Traceroute、MRTG、Iperf、Wget等。


  在网络性能管理的工作中,我们要坚持主动的网络管理观念,不能被动地等待问题的发生和用户的抱怨。

  测量参数
  延时 (delay/latency)
  延时 = 传播延时 + 串行化延时。

  传播延时是信息通过传输介质时产生的延时,每1000公里光纤增加6ms,这是光信号在光纤上传输时产生的。比如北京到广州的来回距离约5000公里,CERNET主干网从北京到广州的延时在34ms左右,是正常的。

  串行化延时是信息通过中间设备时产生的延时,通常是由于设备上的排队、处理和交换引起的,通常小于1ms,但负担较重的路由器特别是防火墙,串行化延时会较大。
  对网络语音应用较好的延时应小于100ms。

  抖动 (Jitter)

  延时的变化称为抖动,产生原因包括可变的队列长度,包经过的路径不同等。另外QoS技术的采用也可能会产生较大的抖动,抖动对大部分应用没有影响,但对多媒体实时应用的影响较大,为了消除网络抖动的影响,通常应用系统需要采用缓冲(Jitter Buffer)来做平滑,对VoIP应用可容忍的抖动范围为20-30ms左右。

  丢包率

  丢包产生的原因:传输链路或硬件设备引起的CRC错误;链路拥挤或队列满(tail drop or RED/WRED);路由改变引起的暂时丢包或黑洞路由;接口故障或路由器故障;错误配置的ACL等。即使1%的丢包,也会对网络应用的性能产生重要影响。

  带宽利用率

  带宽利用率可用来决定何时进行线路升级。通常商业ISP在线路利用率到达35%时就要升级。对CERNET主干网,线路升级的首要前提是线路利用率达到70%。当然,通常线路或设备的升级除了网络性能之外,还要看经济效益。基于带宽利用率来做规划时,还要考虑网络异常时的情况,比如某个节点有两条上联的155M线路,两条线路均正常时的利用率为65%,当其中一条线路断掉时,另一条将负担起130%的流量,将导致网络性能无法保障的情形。

  网络可用率

  网络可用率 = 网络可用时间/总时间。指IP层的可达性,可以通过增加冗余设备、冗余线路和有效的管理来提高。要实现三个九的可用率,即99.9%,那么一个网络在一个月内的断网时间就不能超过45分钟;对于四个九,即99.99%,指一个网络在一个月内的断网时间不能超过5分钟。大部分运营商的网络可用率为三个九;部分可以达到四个九;通常网络设备的可用率在99.99%以上;链路的可用率在99.9%以上。目前CERNET主干网络的平均可用率已达到三个九的指标。

  每秒包数量(PPS)

  PPS对网络设备的性能(如路由器CPU)影响很大,特别是对网络的延时与抖动的影响,如Nachi病毒爆发时,由于网络中充斥着大量的小包,很多设备的CPU利用率超过了95%,部分设备由于CPU过高而瘫痪,因此对PPS的实时监控就极为必要。通过对PPS的监视,可以直观地发现DOS/DDOS攻击,对安全分析也很有用。比如,通常千兆以太网的PPS可能在20万个包左右(baseline),如果突然升到40万个,很可能发生了攻击。

  设备CPU与内存

  网络设备的CPU利用率最好不要超过30%,否则一有攻击时,设备将变得很脆弱,并保证有一定量的空闲内存。

  SLA和QoS

  SLA: Service Level Agreement, 服务质量协议。SLA是网络运营商与用户之间签定的服务质量保证协议。SLA定义了ISP提供的服务质量:包括延时、丢包、抖动等的定量描述。SLA是商业合同的重要组成部分,可以用来衡量服务商的服务水平。QoS则是SLA在技术方面的体现。图2为Sprintlink的SLA实例。

  应用工具与技术
  Telnet和命令行

  当性能数据不支持SNMP操作时,如果不想开发SNMP代理,就需要登录到设备上去直接读取性能数据,如部分接口统计信息、流量和路由信息等,也可以编制一些脚本程序 (如基于expect)来方便操作。


  Ping和traceroute

  Ping利用ICMP协议,可以测试远程节点的状态、丢包及时延等参数。所测延时为RTT(Round Trip Time),无法测量单程时延,在路由不对称时不能提供足够的信息。在新的链路刚起来时,为了测试线路吞吐量,需要利用大包连续ping;在网络故障排除时,经常也需要指定源地址的扩展ping。利用ping时要注意的是部分厂家的设备为了实现对自身的保护,对ICMP协议设置了较低的优先级,因此有可能出现ping不能反映实际网络性能的情况。

  Traceroute可测量从源到目的地所经过的中间站点,及中间每一跳的时延(RTT),也不能测试单程延时,同时也只能测试去的路径,不能测试出包回来的路径。如图3 所示,从主机H1到H2的包走的路来回不一样,但只在H1端traceroute到H2是发现不了不对称路由的,也就是说Router3是发现不了,有时往往是这台没被发现的路由器却正好是性能的瓶颈。因此有时需利用国外的一些测试站点逆向traceroute来发现回来的路,这些测试站点也叫looking glass,可以用搜索引擎找到。

  Microsoft系统的tracert使用ICMP,而Unix/Linux的traceroute使用UDP作为测试协议,当发现ICMP协议被关闭时,可利用Unix平台的traceroute命令。

  基于SNMP的管理工具

  主要包括如SNMP命令行、MIB浏览器、MRTG、网络管理系统NMS等。SNMP命令行包括snmpget、snmpbulkget、snmpput、snmpwalk等命令,可基于这些命令来实现对性能数据的读取;MIB浏览器则提供了一个图形界面,可方便地浏览MIB库结构和进行SNMP操作;MRTG是目前使用较广泛的监控网络链路带宽利用率的工具,支持SNMPv2c,可对64位MIB值进行操作;网络管理系统NMS则通常集成网络管理的五大管理功能,系统较庞大和复杂,功能也较全面。

  大规模网络性能管理矩阵

  对于较大型的网络,通常有多个关键的交换中心即POP节点构成,为了全面反映网络的性能,有必要对这些节点之间相互访问的性能进行监控,而节点之间相互访问的性能数据就构成了一个矩阵,称为性能矩阵,包括延时矩阵、丢包率矩阵、抖动矩阵、组播性能矩阵等。有时也可以将多个性能矩阵合成在一个矩阵里,方便网络管理员监控。

  分布式数据采集代理

  对于分布式性能数据的采集主要有两种方式,一是基于路由器方式;二是基于服务器方式。

  基于路由器方式可细分为两种:复用方式,直接利用网内已有路由器来实现,此方式的优点是便捷、投资少,但可能会对生产路由器产生影响;专用方式,在POP点核心部分接入一个小型的、较便宜的路由器,这种小型的路由器也叫Shadow Router,专门用于性能数据的采集,由于采用专用路由器因此对网络核心路由器影响较小,同时网络管理员又非常熟悉路由器平台,管理起来也较方便,因此目前很多商业运营商均采用这种方式。Cisco也专门推出了基于路由器平台的性能数据采集技术IP SLA,并有相应管理软件。但是采用路由器方案时,灵活性和可扩展性受到一定的限制。

  采用服务器方式也可分为两种情形:复用已有服务器;专用的服务器。采用服务器方式由于是基于通用的UNIX平台,因此可以根据需求随时增加所需的功能,扩展性也很好,服务器可选用简单的1U或2U的普通服务器,投资比专用路由器要便宜,同时目前网络上免费的性能管理工具非常多,但也要求网络管理员具备一定的开发和软件集成的能力。

  CERNET分布式性能监控系统架构

  CERNET主干网由38个节点组成,CERNET全网性能矩阵的构建采用的是基于专用服务器的方式,在全国38个节点的核心部分部署了一台廉价的1U PC服务器,安装的是FreeBSD的操作系统,采用电子盘和硬盘两种启动方式,运行已近两年,比较稳定。系统的结构如图4所示。专用性能数据采集服务器称为Agent,采集的性能数据集中显示在国家网络中心的网管服务器上,性能数据的存放采用分布和集中两种方式,实时数据基本存放在本地。

  基于流的网络流量分析与性能管理网络流量分析

  有时不仅需要对接口/链路的流量进行监控,进一步的管理需对网络流量进行分析,如流量分布和协议分布等;同时无论是采用路由器方式还是专用服务器方式来构筑性能矩阵,所获取的数据基本上是测试流量或模仿应用的流量,与最终用户的实际网络访问感受仍有一定的区别,因此性能管理的另外一种方法是直接监控和分析网络中的实际应用流量。

  Netflow技术与应用

  近两年,Netflow技术得到较大的发展,首先是对路由器CPU的影响最低时降为2%~3%,统计的准确率也得到较大的提高;同时对于10Gbps及以上带宽的网络或ISP主干网来讲,Netflow基于采样,有较高的效率,而Sniffer及一般主机设备在包获取方面遇到了难题,因此Netflow技术得到广泛应用也不足为奇。Netflow是Cisco的技术,相类似的技术包括Juniper的SFlow和华为公司的NetStream等。

  目前CERNET已在全网部署了Netflow数据采集和分析系统,主要用来实现对网络应用的性能分析、安全分析和计费管理等。通过Netflow系统可以对CERNET网内任一学校出入主干网、出入国内互联和出入国际的流量进行分析和统计。图5为一所具体学校的以上三种流量的分布构成,在CERNET内部的流量约占68%,与国内其他ISP互访的流量为23%,而国际流量占7.7%。从这个图可以分析得出,如果一所学校接入CERNET主干的带宽为100M,则该校所需的国际流量可能在7M左右,大约为10%。

  结束语

  性能管理是网络管理的重要组成部分,性能管理对网络的延时、丢包率、抖动、带宽利用率等数据进行实时监控,确保网络按我们预期的方式稳定、正常运行,并发现与SLA的偏离,及时进行网络升级规划和优化,并尽可能采取必要的QoS技术来进行保障。

posted @ 2011-07-27 15:55  attitudedecidesall  Views(825)  Comments(0Edit  收藏  举报