案例1:用户在业务高峰期无法访问3g portal

分析过程:

流量负载与突发流量、包尺寸均无异常。

TCP连接中大量是通过TCP RST结束连接;根据三次握手分析服务器端到捕获端、客户端到捕获端的RTT,web portal端时延小,排除服务器导致连接失败;查看RST的时延,判断为出口路由器的故障。结论:路由器bug。

案例2:无法发送大附件邮件

分析过程:

抓包发现重传很多,90s后,邮件服务器认定连接异常,发送重置数据包;

分别在防火墙和路由器后端进行抓包,界定为路由器问题;

原因:网络中存在GRE通道,用于SMTP。GRE需要24字节的额外负载,原来1500byte的负荷变成了1524,而路由器的缺省MTU为1500,且本网络中SMTP不准分片,因此丢弃。

解决方案:1、取消GRE通道配置;2、修改GRE通道的MTU,使其保证能通过1518byte的数据包;3、SMTP服务器设置为准许邮件数据包分片。

案例3:ping大包丢包

分析过程:网络拓扑为光纤相连,中间设备只有光电转换器。分析时在光电转换器与路由器之间串联一个交换机,利用交换机的端口镜像功能。

原因:大包超过MTU,分片,中途丢包,导致数据包重组超时。

案例4:LIMS系统导致ERP系统缓慢

分析过程:在服务器与接入交换机之间串入hub,接入分析工具抓包,发现有几次连接过程,且最后一次的响应时间太慢。TCP急迫位被置为1,导致ERP系统打破了处理调度顺序,ERP资源不足时演变为故障。

解决方案:修改LIMS端的应用层控制。

案例5:无法访问总部的网站,网页打不开,但ping ok,且除了该网段地址外,其他网段都访问OK。

分析过程:ping ok,因此连通性无问题,可能是中间设备未转发请求的数据包导致包丢失从而连接失败。用防火墙内置的抓包功能看到防火墙的端口转发数据OK,但回应的端口由80变成了135,确定故障应是防火墙前段的设备。

结论:加速器的加速功能开启时访问异常,加速功能关闭时访问OK。

案例6:不定时出现网络延迟故障。

分析过程:抓包分析流量并不大,但某时有突发流量,且均为UDP协议,大小均为固定的112字节,经查源主机感染蠕虫病毒。

案例7:VOIP通信受干扰,有爆音和背噪

分析过程:抓包显示呼叫的建立和拆除信令完整。有声音,因此RTP包没有被丢弃(RTP封装在UDP包中)。抓包观察ping延迟的差异,平均抖动基本平稳,不会影响通话质量。VOIP属于实时应用,要求数据尽力快速传输,未采取重传和防伪造机制。但抓包发现有IPID值相同且按规律出现的数据包。

结论:运营商插入了用于干扰的RTP包,产生爆音和背噪,影响通话质量。由于RTP包具有明显的特征,可以在网络边界设备上识别和过滤;也可以在PBX上使用NDIS驱动过滤。

案例8:网络通讯阻塞,访问网络速度缓慢,ping网关偶有中断

分析过程 :登陆交换机查看CPU和内存利用率,均正常。在核心上做镜像抓包,短时间内有大量TCP connection refused包,定位发现有感染病毒的主机。后再抓包,设置网关IP为过滤条件,发现两个不同MAC。但核心交换机到网关再无其他设备,因此排查为有计算机错误设置为了网关的IP。

案例9:网络丢包分析

造成丢包的主要原因:硬件故障(网卡、端口故障)、软件故障(错误的静态路由、主机默认网关配置错误)、网络拥塞(带宽过小或存在异常流量时,如ARP攻击/P2P等)、MTU配置不当(以太网:1500字节、IEEE 802.3/802.2 1492字节)。

排查方法:分段捕获。推荐利用率不高于15%,网络利用率高于30%时,就会产生1%的丢包。 

案例10:瘦客户端故障

故障:瘦客户端无法开机,bootp无法通过DHCP获得有效IP,从而下载操作系统失败,瘦客户端停留在引导的黑屏界面;已在线用户缓慢。
排查过程:网络利用率很低;网管转发的DHCP请求数据包服务器基本不回应;网络设备接口无错帧、丢帧以及误码等报错信息,且设备CPU、内存等资源占用情况正常;抓包发现:某台机器A短时间内向大量地址发数据包,频率高,且均为ICMP请求包和目的端口为80的TCP的syn包,syn包序列号全一致。
分析:A机器产生类似病毒扫描行为,大量数据包导致服务器网段工作异常,服务器不响应dhcp请求,导致用户无法获得IP地址并完成后续启动。
将A机离线后故障消失,网络利用率恢复。故障定位:A机上有某管理程序异常。
深层次分析:抓包分析A机发送不存在地址(1.0.0.20)的syn包后,会出现来自外部的ack应答包,但理论上不应该,即网络上存在一个源代替1.0.0.20发回应信息。
经分析为CP安全网关工作在80端口的代理模式,代理了1.0.0.20的ack应答。将安全网关下线后,检查防火墙内存状态表,发现FW会根据访问控制规则,容许1.0.0.20的地址通过火墙,建立状态为established的会话状态表。安全网关代理应答导致消耗大量资源,从而出现故障;安全网关下线后,对FW形成大量会话连接建立请求,形成类似synflood攻击模糊死,火墙的会话超时时间为1小时,性能约容纳200万状态记录,不到一小时FW即会资源耗尽导致网络故障。 

案例11:防火墙阻挡ospf组播协议包

故障现象:核心交换机与路由器之间架设一台硬件防火墙后,内网终端无法联通内网系统。防火墙为透明模式,没有任何过滤策略。撤掉防火墙后故障消失。
排查过程:查看核心上show access-list,访问列表无内容,表明核心未执行数据包过滤操作;show ip route,未发现到内网的路由。

结果:核心和路由器上开启了OSPF,但ospf协议寻找动态邻居时,需要以组播方式向网络发hello包,但硬件防火墙默认状态不容许组播数据包通过,会阻碍核心从路由器学到动态路由。配置合适的访问规则后,访问OK。 

 

posted on 2011-05-04 22:32  文圆质芳  阅读(866)  评论(0编辑  收藏  举报