网络故障诊断的原则[转自www.cnitblog.com/wildon]
第一步,当分析网络故障时,首先要清楚故障现象。应该详细说明故障的症侯和潜在的原因 。为此,要确定故障的具体现象,然后确定造成这种故障现象的原因的类型。例如,主机不 响应客户请求服务。可能的故障原因是主机配置问题、接口卡故障或路由器配置命令丢失等 。
第二步,收集需要的用于帮助隔离可能故障原因的信息。向用户、网络管理员、管理者和其 他关键人物提一些和故障有关的问题。广泛的从网络管理系统、协议分析跟踪、路由器诊断 命令的输出报告或软件说明书中收集有用的信息。
第三步,根据收集到的情况考虑可能的故障原因。可以根据有关情况排除某些故障原因。例 如,根据某些资料可以排除硬件故障,把注意力放软件原因上。对于任何机会都应该设法减 少可能的故障原因,以至于尽快的策划出有效的故障诊断计划。
第四步,根据最后的可能的故障原因,建立一个诊断计划。开始仅用一个最可能的故障原因 进行诊断活动,这样可以容易恢复到故障的原始状态。如果一次同时考虑一个以上的故障原 因,试图返回故障原始状态就困难的多了。
第五步,执行诊断计划,认真做好每一步测试和观察,直到故障症状消失。
第六步,每改变一个参数都要确认其结果。分析结果确定问题是否解决,如果没有解决,继 续下去,直到解决。
网络故障分层诊断技术
1. 物理层及其诊断 物理层是OSI分层结构体系中最基础的一层,它建立在通信媒体的基础上,实现系统和通信 媒体的物理接口,为数据链路实体之间进行透明传输,为建立、保持和拆除计算机和网络之 间的物理连接提供服务。 物理层的故障主要表现在设备的物理连接方式是否恰当;连接电缆是否正确;MODEM、 CSU/DSU等设备的配置及操作是否正确。 确定路由器端口物理连接是否完好的最佳方法是使用show interface命令,检查每个端口的 状态,解释屏幕输出信息,查看端口状态、协议建立状态和EIA状态。
2. 数据链路层及其诊断 数据链路层的主要任务是使网络层无须了解物理层的特征而获得可靠的传输。数据链路层为 通过链路层的数据进行打包和解包、差错检测和一定的校正能力,并协调共享介质。在数据 链路层交换数据之前,协议关注的是形成帧和同步设备。 查找和排除数据链路层的故障,需要查看路由器的配置,检查连接端口的共享同一数据链路 层的封装情况。每对接口要和与其通信的其他设备有相同的封装。通过查看路由器的配置检 查其封装,或者使用show命令查看相应接口的封装情况。
3. 网络层及其诊断 网络层提供建立、保持和释放网络层连接的手段,包括路由选择、流量控制、传输确认、中 断、差错及故障恢复等。 排除网络层故障的基本方法是:沿着从源到目标的路径,查看路由器路由表,同时检查路由 器接口的IP地址。如果路由没有在路由表中出现,应该通过检查来确定是否已经输入适当的 静态路由、默认路由或者动态路由。然后手工配置一些丢失的路由,或者排除一些动态路由 选择过程的故障,包括RIP或者IGRP路由协议出现的故障。例如,对于IGRP路由选择信息只 在同一自治系统号(AS)的系统之间交换数据,查看路由器配置的自治系统号的匹配情况。
路由器接口故障排除
1. 串口故障排除 串口出现连通性问题时,为了排除串口故障,一般是从show interface serial命令开始,分析 它的屏幕输出报告内容,找出问题之所在。串口报告的开始提供了该接口状态和线路协议状 态。
2.以太接口故障排除 以太接口的典型故障问题是:带宽的过分利用;碰撞冲突次数频繁;使用不兼容的幀类型。 使用show interface ethernet命令可以查看该接口的吞吐量、碰橦冲突、信息包丢失、和幀 类型的有关内容等。 通过查看接口的吞吐量可以检测网络的利用。如果网络广播信息包的百分比很高,网络性能 开始下降。光纤网转换到以太网段的信息包可能会淹没以太口。互联网发生这种情况可以采 用优化接口的措施,即在以太接口使用no ip route-cache命令,禁用快速转换,并且调整缓 冲区和保持队列。
两个接口试图同时传输信息包到以太电缆上时,将发生碰橦。以太网要求冲突次数很少,不 同的网络要求是不同的,一般情况发现冲突每秒有3、5次就应该查找冲突的原因了。碰橦冲 突产生拥塞,碰橦冲突的原因通常是由于敷设的电缆过长、过分利用、或者“聋”节点。以太 网络在物理设计和敷设电缆系统管理方面应有所考虑,超规范敷设电缆可能引起更多的冲突 发生。 如果接口和线路协议报告运行状态,并且节点的物理连接都完好,可是不能通信。引起问题 的原因也可能是两个节点使用了不兼容的幀类型。解决问题的办法是重新配置使用相同幀类 型。如果要求使用不同幀类型的同一网络的两个设备互相通信,可以在路由器接口使用子接 口,并为每个子接口指定不同的封装类型。
3. 异步通信口故障排除 互连网络的运行中,异步通信口的任务是为用户提供可靠服务,但又是故障多发部位。主要 的问题是,在通过异步链路传输基于LAN通信量时,将丢失的信息包的量降止最少。
异步通信口故障一般的外部因素是:拨号链路性能低劣;电话网交换机的连接质量问题;调 制解调器的设置。检查链路两端使用的调制解调器:连接到远程PC机端口调制解调器的问题 不太多,因为每次生成新的拨号时通常都初始化调制解调器,利用大多数通信程序都能在发 出拨号命令之前发送适当的设置字符串;连接路由器端口的问题较多,这个调制解调器通常 等待来自远程调制解调器的连接,连接之前,并不接收设置字符串。如果调制解调器丢失了 它的设置,应采用一种方法来初始化远程调制解调器。简单的办法是使用可通过前面板配置 的调制解调器,另一种方法是将调制解调器接到路由器的异步接口,建立反向telnet,发送设 置命令配置调制解调器。 show interface async 命令、show line命令是诊断异步通信口故障使用最多的工具。show interface async 命令输出报告中,接口状态报告关闭的唯一的情况是接口没有设置封装类型 。线路协议状态显示与串口线路协议显示相同。show line命令显示接口接收和传输速度设置 以及EIA状态显示。show line命令可以认为是接口命令(show interface async)的扩展。
show line命令输出的EIA信号及网络状态: noCTS noDSR DTR RTS:调制解调器未与异步接口连接。 CTS noDSR DTR RTS:调制解调器与异步接口连接正常,但未连接远程调制解调器。 CTS DSR DTR RTS:远程调制解调器拨号进入并建立连接。 确定异步通信口故障一般可用下列步骤:检查电缆线路质量;检查调制解调器的参数设置; 检查调制解调器的连接速度;检查rxspeed 和txspeed是否与调制解调器的配置匹配;通过 show interface async 命令和 show line命令查看端口的通信状况;从show line命令的报告 检查EIA状态显示;检查接口封装;检查信息包丢失及缓冲区丢失情况。 结语 网络发生故障是不可避免的。网络建成运行后,网络故障诊断是网络管理的重要技术工作。
搞好网络的运行管理和故障诊断工作,提高故障诊断水平需要注意以下几方面的问题:认真 学习有关网络技术理论;清楚网络的结构设计,包括网络拓朴、设备连接、系统参数设置及 软件使用;了解网络正常运行状况、注意收集网络正常运行时的各种状态和报告输出参数; 熟悉常用的诊断工具,准确的描述故障现象。
//////////////////////////////////////////////////////
总结
1.说了一大堆,其实就是"从底往上"(物理层->数据链路层->网络层)找原因测试,记得制定一个测试计划,和做好记录(以帮助恢复)
2.对于路由器的检查,作者看得出来是用Cisco的设备,命令不难Show 什么就好了,忘记命令时打?就行了,如 show ?
同时Cisco支持简写 show int0 它也会明白是 show interface0的简写
3.按说网络层的故障原因最多也最杂,善于用些分析工具会有所帮助(sniffer拿来的包不明白协议也是白搭^_^)