现状描述:

  办公网环境下由2台VSS模式下WS-C4503-E 作为核心交换机,下接若干台WS-C2960X-48LPS-L作为接入。行政同事在进行工位改造的时候为方便将原工位网线下联若干台hub。

故障现象:

  7月4号(周六)下午6点zabbix监控告警核心交换机的CPU使用率很高,在凌晨1点以后员工都下班时恢复到正常的水平

  正常时的CPU监控如下

  

   故障时的CPU监控如下  

 

故障分析:

  故障发生下周六的下午,没有人对网络设备做过配置调整,初步判断是由于业务同事错误的将hub区域的网络接成了环路。如将2条原工位线同时接到了hub上。排查方案是等周一上班时让桌面运维协助分别断开每台hub来看CPU使用率是否会下降。

排查过程:

  在周一下午3点半左右将一台hub断电后发现CPU使用率确有下降,故确定是此hub导致。但是在7点左右又开始告警。晚上联系业务同事在9点20至9点35断开整个疑似故障区域对应的接入交换机。发现CPU使用率仍是很高。至此,排除hub导致的环路问题。 下一步的排查方案定位重启核心。

  reload之后发现有多处服务器不通的告警,判断是VSS的主机重启,备机未重启并替换为主机导致的。再次reload之后恢复正常,CPU使用率也已经降低。由于此时业务同事都已经下班,CPU使用率降下来的原因不能确认。

  第二天上午观察监控确认恢复。

故障原因:

  最后Google找到原因:IOS bug。  

  There is a bug on ios-xe for that process , your most likely hitting that , i would upgrade or open a TAC case get the specific bug id or check the release notes online against your version see if there's a matching open caveat 

 

posted on 2020-07-07 17:21  星痕1216  阅读(609)  评论(0编辑  收藏  举报