【交换机在江湖---维护无忧系列】设备异常重启&单板异常复位故障专题

 

交换机在江湖 官方号 2016-11-9 15:28:01 最新回复:2019-08-14 13:19:19
 1.5W  14  0  10

1 前言

概述

本文档介绍了S系列交换机设备异常重启/单板异常复位问题的常见原因、定位方法和解决步骤,同时提供了相关的典型案例及参考信息,为维护工程师处理现网设备的故障问题提供一些参考。

20161110091430589001.jpg

由于硬件形态的差异,不同设备支持的功能特性及支持的命令行可能不同。本文档中涉及的命令以V200R008版本为例,使用时请参考设备对应版本的产品文档。

 

2 故障分析总体思路图

设备异常重启和单板异常复位会造成正在运行中的业务中断,通过本节内容,您可以快速了解并掌握此类启问题的处理思路和方法,针对部分导致故障的原因可提前预防,避免故障造成的业务损失。

此类问题的故障现象一般分为盒式交换机整机重启和框式交换机的单板复位,其中框式交换机单板复位又分为所有单板都复位和单一单板复位,图2-1提供了每种故障现象分别对应的不同处理方法。

图2-1 故障分析总体思路图

20161110091431074002.png

?

20161110091431031003.jpg

设备重启后无法启动和单板复位后无法注册类的问题,可参考《设备无法启动/单板无法注册》故障专题手册,该类故障的处理方法不在本手册中详细介绍。


3 盒式交换机整机重启故障

3.1 设备异常重启后,可以启动

3.1.1 故障诊断流程

图3-1 盒式交换机整机重启故障诊断流程图

20161110091432489004.png

?

3.1.2 故障诊断步骤及解决措施

3.1.2.1 查看交换机的类型和版本信息

??????????????????????????????? 步骤 1???? 通过display device命令,查看交换机的型号及状态信息。

<HUAWEI> display device 
S5700-52P-LI-AC's Device status:????????????? 
Slot Sub? Type??? Online??? Power????? Register???? Status?? Role? 
------------------------------------------------------------------ 
0?? - S5720-56C-HI-AC Present?? owerOn?? Registered?? Normal?? Master

通过显示信息可看出设备型号为S5720-56C-HI-AC。

??????????????????????????????? 步骤 2???? 通过display version命令,查看交换机的版本信息。

<HUAWEI> display version
Huawei Versatile Routing Platform Software 
VRP (R) software, Version 5.160 (S5720 V200R008C00
Copyright (C) 2000-2015 HUAWEI TECH CO., LTD 
HUAWEI S5720-56C-HI-AC Routing Switch uptime is 0 week, 1 day, 3 hours, 24 minutes 
ES5D2T52C001 0(Master) : uptime is 0 week, 1 day, 3 hours, 23 minutes 
4095M bytes DDR Memory 
64M bytes FLASH 
Pcb????? Version :? VER.A 
Basic? BootROM? Version : 0208.0015 Compiled at Mar 20 2014 , 22:53:47 
BootLoad? Version : 0208.0015 Compiled at Mar 14 2014 , 13:33:43 
CPLD?? Version : 0100 
Software Version : VRP (R) Software, Version 5.160 (V200R008C00) 
CARD2 information 
Pcb????? Version : ES5D21X04S01 VER.A 
PWR1 information 
Pcb????? Version : PWR VER.A? 
?
?

通过显示信息可看出设备的软件版本为V200R008C00。

----结束

3.1.2.2 查看交换机的重启原因

??????????????????????????????? 步骤 1???? 通过display reboot-info命令,查看交换机的重启信息。

<HUAWEI> display reboot-info 
Slot ID?? Times?? ???????Reboot Type????????? Reboot Time(DST)??? 
================================================================== 
0???????? 1????????????? POWER?????????????? 2013/07/18 19:19:56? 
0???????? 2????????????? SCHEDU????????????? 2013/07/18 18:51:04? 
0??? ?????3????????????? SOFTWARE??????????? 2013/07/18 18:41:22? 
0???????? 4????????????? EXCEPTION?????????? 2013/07/18 17:38:26? 
0???????? 5????????????? MANUAL????????????? 2013/07/18 17:31:14? 
0???????? 6????????????? MANUAL????????????? 2013/07/18 17:26:01? 
0???????? 7????????????? EXCEPTION?????????? 2013/07/18 17:03:28? 
================================================================== 
Total?? 7

表3-1 display reboot-info命令输出信息描述

项目

描述

Slot ID

堆叠使能后,表示堆叠ID;堆叠未使能时,表示槽位号。

Times

表示重新启动的次数。

Reboot Type

表示重新启动的类型,包括MANUAL、POWER、SCHEDU、FSP、EXCEPTION、VRP、SOFTWARE和OTHER八种类型。

Reboot Time(DST)

表示重新启动的时间。

对于不支持RTC功能的设备,设备配置了NTP功能后会在120秒内同步网络内的系统时钟(同步过程中显示时间为设备出厂的系统时间)。如果同步失败显示为设备出厂的系统时间。

?

??????????????????????????????? 步骤 2???? 分析查询到的重启原因并执行相应措施。display reboot-info查询到的复位类型包括八种,如表3-2所示。

表3-2 重启类型、原因及处理方法

重启类型

原因

处理方法

MANUAL

通过reboot命令或用网管进行的人为重启。

确认拥有重启权限的用户是否重启了设备

POWER

掉电重启,通常插拔电源导致的重启。

通过查看告警和设备外观及环境排查以下几种原因:

l? 人为下电

l? 电网不稳

l? 电源故障

SCHEDU

通过schedule reboot命令定时重启。

无,属于正常重启

FSP

堆叠***、合并或Mod-ID分配错误导致的重启。

通过查看告警及日志进一步定位

EXCEPTION

异常或死循环导致的重启。

通过查看告警及日志进一步定位

VRP

VRP软件平台导致的重启。

通过查看告警及日志进一步定位

SOFTWARE

其余软件上能够追踪到重启原因。

通过查看告警及日志进一步定位

OTHER

l? Flash、内存等硬件故障导致的重启。

l? 设备温度过高导致的重启。

l? 设备瞬间上下电,如电源线缆接触不良导致。或者设备瞬间的过压失压导致,这时需要检查外部接入是否正常。

l? 一切其他原因导致的重启,包括设备加入堆叠后的重启,及其他无法具体分类的原因。

l? 3.1.2.4 查看设备外观和环境

l? 通过查看告警及日志进一步定位

?

----结束

3.1.2.3 查看告警

查看告警方法

当设备发生故障,或设备所处环境超出正常工作要求时,将导致系统无法正常工作,系统能够根据不同类型的故障产生告警信息。

告警信息可以通过如下两种方式查看到:

l?? 通过网络管理系统界面(如esight网管)直接查看告警信息。

l?? 通过display trapbuffer [ size value ]命令在命令行终端界面查看设备上告警显示区内的告警信息。

告警显示区内的信息与指定的告警显示条目,即value的大小有关。如果当前告警显示区内信息数少于用户指定的显示条目,则在终端界面上显示实际条数的告警信息。

<HUAWEI> display trapbuffer 
Trapping buffer configuration and contents : enabled???????????????????????????? 
Allowed max buffer size : 1024?????????????? ????????????????????????????????????
Actual buffer size : 256???????????????????????????????????????????????????????? 
Channel number : 3 , Channel name : trapbuffer?????????????????????????????????? 
Dropped messages : 0?????????????????????????????????? ??????????????????????????
Overwritten messages : 6248????????????????????????????????????????????????????? 
Current messages : 256?????????????????????????????????????????????????????????????????????????????????????????????????????????????? 
#Sep 19 2012 04:38:03+08:00 HUAWEI DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4.1.2011 
.5.25.191.3.1 configurations have been changed. The current change number is 8,? 
the change loop count is 0, and the maximum number of records is 4095.?????????? 
#Sep 19 2012 04:37:39+08:00 HUAWEI LINE/5/VTYUSERLOGIN:OID 1.3.6.1.4.1.2011.5.2 
5.207.2.2 A user login. (UserIndex=34, UserName=VTY, UserIP=10.135.18.114, UserC 
hannel=VTY0)????????????????????????????????????????????????????????

也可使用如下命令来查看设备的具体告警信息:

l?? 执行命令display alarm urgent,查看设备温度异常、风扇异常、芯片异常等硬件管理相关的告警信息。

l?? 执行命令display alarm active,查看设备启动后当前仍然未恢复的告警信息。

l?? 执行命令display alarm history,查看设备启动后记录的历史告警信息。

与设备重启相关的常见告警及处理方法

表3-3 与设备重启相关的常见告警及处理方法

20161110093234205001.png
20161110093235762002.png
20161110093235160003.png
20161110093236393004.png
20161110093237523005.png
20161110093238217006.png

20161110091431031003.jpg

建议采用如下技巧帮助您更快速的搜索到准确的告警:

l? 由于“告警ID”唯一标识一条告警,建议您通过“告警ID”在《告警处理》手册中进行搜索,从而快速查找到对应告警的解释及处理步骤。

l? 对于一条ID相同的告警,如果触发原因不同,输出信息中通过携带不同的错误码(如BaseTrapProbableCause)来标识,这时,请通过错误码在《告警处理》手册中进一步搜索。

l? 也可以通过信息查询助手工具直接查询相关告警信息。

查询时请勿携带可变信息进行搜索,例如告警产生时间、接口编号、进程编号、设备命名等。

3.1.2.4 查看设备外观和环境

如果设备的重启原因类型为POWER或OTHER,或者查看告警中发现电源、风扇或温度类的告警,可通过查看设备外观和外部环境来排查。

排查电源异常导致的设备重启

??????????????????????????????? 步骤 1???? 根据记录的reboot time,确认用户电网该时间段有没有突发掉电的情况,主要包括以下几个方面:

l?? 是否人为操作导致的设备下电。

l?? 如果是UPS供电,查看UPS的日志,在该时间段是否有异常记录。

l?? 同一个机柜/同一个供电的网络内其他设备有没有过掉电。

l?? 该时间段是否有大功率设备接入导致供电不足的情况。

l?? 排查是否有线路老化、接触不牢导致掉电的情况。

l?? 使用万用表测量输入电压是否正常。

如果排查存在异常,按照排查的具体原因解决外部供电的问题。

??????????????????????????????? 步骤 2???? 查看设备外观有没有明显的端口发黄变色痕迹,如有明显的水晶头发黄变色痕迹,一般属于雷击或者浪涌造成的故障,可能是内部CPU芯片被击坏失效,请3.1.2.6 联系技术支持人员。

??????????????????????????????? 步骤 3???? 排查下交换机自身电源是否异常。

l?? 如果设备是内置电源模块,即不能方便的通过交叉验证的设备,在确认外部电源没有问题的情况下存在电源类告警,请3.1.2.6 联系技术支持人员。

l?? 如果是可插拔的电源模块,检查电源模块是否被拔出或安装牢固。在客户允许的情况下,可以尝试更换电源槽位、交叉验证电源模块等手段确认是否电源模块自身故障。如果交叉验证后故障跟随设备,请3.1.2.6 联系技术支持人员。

----结束

排查温度或风扇异常导致的设备重启

??????????????????????????????? 步骤 1???? 查看设备的工作环境温度是否正常(一般设备的工作环境温度为0°C~45°C),如果温度过高,相应降低机房的环境温度。

??????????????????????????????? 步骤 2???? 查看设备的通风区域是否被阻挡。如果有阻挡,清除阻挡后观察设备的温度是否恢复正常。

??????????????????????????????? 步骤 3???? 如果是风扇强制散热的设备,查看风扇模块是否被拔出或安装牢固。

??????????????????????????????? 步骤 4???? 检查风扇模块是否正常运转,设备的出风口是否有气流排出。如果排查为风扇故障(风扇不转或存在风扇类告警),可插拔的风扇模块通过更换风扇模块解决,内置风扇的设备请3.1.2.6 联系技术支持人员。

----结束

3.1.2.5 查看日志

如果通过以上步骤仍无法定位设备重启的原因,可通过查看设备日志进一步分析。

查看日志方法

设备在运行过程中,主机软件中的日志模块会对运行中的各种情况进行记录,从而形成日志信息。日志信息主要用于查看设备的运行状态、分析网络的状况以及定位问题发生的原因,为系统进行诊断和维护提供依据。

可以通过控制口或telnet方式登录到设备,使用命令display logbuffer查看保存在日志缓存中的内容,还可以在设备上对日志信息进行保存,使用syslog协议将日志信息输出到日志服务器。

# 使用命令display logbuffer查看Log缓冲区的所有日志信息。

<HUAWEI> display logbuffer 
Logging buffer configuration and contents : enabled?????????????????? 
Allowed max buffer size : 1024????????????? ??????????????????????????
Actual buffer size : 512????????????????????????????????????????????? 
Channel number : 4 , Channel name : logbuffer???????????????????????? 
Dropped messages : 0????????????????????????????????????????????????? 
Overwritten messages : 0????????????????????????????????????????????? 
Current messages : 43???????????????????????????????????????????????? 
?
Oct 16 2013 06:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[3]: Disk space is insufficient. The system begins to delete unused log files.? 
Oct 10 2013 19:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[4]: Disk space is insufficient. The system begins to delete unused log files.????????????????????????????????????????????????????? 
? ---- More----

与设备重启相关的常见日志及处理方法

表3-4 与设备重启相关的常见日志及处理方法

信息摘要

日志含义

可能原因

处理方法

FSP/4/ID_ASSIGNED

从交换机被主交换机连续指定了两次不同的堆叠ID。

设备异常导致从交换机重启。

出错设备会自动重起,如果重启后故障现象仍然存在请3.1.2.6 联系技术支持人员。

FSP/4/COLLECT_TIMEOUT

从设备连接超时。

设备出现异常。

FSP/4/SPDU_LOST_NOTRUN

从设备在非RUN状态的时候丢失主交换机的心跳报文。

从设备出现异常或者和从设备连接的主设备堆叠口发生故障。

FSP/4/SPDU_LOST

堆叠成员丢失了主设备的SPDU报文。

堆叠成员丢失了主设备的spdu报文。

FSP/4/LOST_IDENTIFY

主设备无法识别堆叠成员。

设备无法加入堆叠。

不能识别的从设备会自动重起,排查堆叠配置是否正确。

FSP/4/TOPO_CHANGE

拓扑结构变化(环形变链型或者链型变成环形)。

有设备离开或者加入堆叠环境。

l? 确认是否是用户主动进行堆叠***,如果是,无需处理;如果非用户主动***,请执行下一步。

l? 确认成员交换机是否掉电,如果掉电,重新给设备上电,设备自动完成堆叠合并;如果离开的成员交换机并没有掉电,请执行下一步。

l? 确认堆叠配置是否被其他用户误删除或改动。

执行命令display stack current-configuration,确认针对离开的成员交换机的堆叠配置是否被改动,如果有,请修改回原配置,并确认是否堆叠合并,如果堆叠未合并,或堆叠配置没有变动,请执行下一步。

l? 确认堆叠线链路是否发生故障。

执行命令display interface stack-port,查看堆叠链路是否Up,以及收发包是否正常,如果端口Down,或者收发包的数量很小,说明此端口上连接的堆叠链路发生故障,请更换堆叠线缆或光模块。

确保堆叠链路正常后,如果堆叠依然未合并,请执行下一步。

l? 3.1.2.6 联系技术支持人员。

FSP/4/NBR_LOST

堆叠设备的端口发现邻居丢失。

有成员主动离开堆叠或成员交换机发生故障。

FSP/4/STACK_LEAVE

某设备离开堆叠环境。

设备的端口down。

LOAD/6/CLIENTLEFT

正在下载系统软件的新成员交换机离开了堆叠系统,同时指明提供系统软件的成员交换机ID。

如果堆叠成员交换机间系统软件版本不同,堆叠建立或合并时,新加入的交换机会主动向已加入的临近成员交换机请求下载系统软件。如果新加入的交换机在下载系统软件的过程中掉电,或者堆叠线缆故障,堆叠系统中会产生此日志。

LOAD/6/SLOTLEFT

成员交换机离开堆叠系统。

堆叠***,成员交换机离开堆叠系统。

MAD/4/CONFLICT_DETECT

发现多主场景。

堆叠链路故障,出现多主。

修复堆叠链路故障。

FSP/4/SWTICH_REBOOTING

堆叠合并过程中,成员交换机重启。

堆叠合并过程中,竞争失败的堆叠系统的成员交换机重启加入新的堆叠系统。

正常情况无需处理。

SRM/3/REF_CLK_FAULT

XAUI接口参考时钟故障。持续故障可能会导致设备重启。

XAUI接口参考时钟故障。

3.1.2.6 联系技术支持人员。

?

20161110091430589001.jpg

建议采用如下技巧帮助您更快速的搜索到准确的日志:

l? 由于“信息摘要”唯一标识一条日志,建议您通过“信息摘要”在《日志参考》手册中进行搜索,从而快速查找到对应日志的解释及处理步骤。

l? 使用《日志参考》手册时,请勿携带可变信息进行搜索,例如日志产生时间、接口编号、进程编号、设备命名等。

举例如下:

对于出现的日志:Apr 27 2014 07:45:35 HUAWEI %%01SHELL/4/LOGIN_FAIL_FOR_INPUT_TIMEOUT(s)[6]:Failed to log in due to timeout.(Ip=10.135.19.157, UserNa me=**, Times=1, AccessType=TELNET, VpnName=)。使用信息摘要“LOGIN_FAIL_FOR_INPUT_TIMEOUT”在《日志参考》手册中即可搜索到对应的解释为“用户由于输入用户名或密码超时导致登录失败”。

3.1.2.6 联系技术支持人员

如果经过以上步骤仍无法定位设备重启原因,请收集相关故障信息,并将其提交给代理商或华为技术有限公司进行定位和处理。

需要收集的故障信息如下:

?发生故障的时间、故障点的网络拓扑结构(例如故障设备连接的上下游设备、所处的网络位置)、导致故障的操作、故障后已采取的措施和结果、故障现象和影响的业务范围等信息。

?发生故障的设备的名称、版本、当前配置、接口信息等,可使用一键信息采集

?发生故障时产生的日志信息。

?如果设备重启后无法正常启动,还需要收集在启动过程中的串口打印信息。

一键信息采集

通过display diagnostic-information命令可以获取设备的诊断信息,它集合了多条常用display命令的输出结果,包括设备的启动配置、当前配置、接口信息、时间、系统版本等等,是一键采集的好方法。

设备提供了display diagnostic-information file-name ]命令,该命令可以将设备目前运行的诊断信息输出到屏幕或txt文件,如果不加file-name参数,就是将诊断信息输出到屏幕;如果加file-name参数,就是将诊断信息输出到以file-name命名的txt文件,包含启动配置、当前配置、接口信息、时间、系统版本等大量有用信息。建议将诊断信息输出到txt文件。该命令使用方法如下:

<HUAWEI> display diagnostic-information dia-info.txt 
? This operation will take several minutes, please wait......................... 
Info: The diagnostic information was saved to the device successfully.

txt文件的缺省保存路径为flash:/,用户视图下使用dir命令可以确认文件是否正确生成。

采用直接在屏幕的显示方式,如命令输出的诊断信息较长,可以通过按Ctrl+C停止。

另外,该命令主要用于问题定位,搜集系统诊断信息,搜集时可能会影响系统的性能(例如CPU占用率升高等)。因此,在系统正常运行时不建议执行该命令。并且,严禁在连接到设备的多个终端上同时执行该命令,否则可能造成设备的CPU占用率明显增高,导致设备性能下降。

目前常用的终端配置软件都提供了将显示信息输出到文件的功能,如Windows自带的超级终端:“传送 > 捕获文字”,输入保存的文件名后点击“启动”即可。完成配置后,直接执行display diagnostic-information命令,则会将所有诊断信息直接输出到显示终端屏幕上,并自动以文件形式保存到配置终端指定的路径下。

获取日志文件

设备支持日志和告警信息保存到日志文件中,用户可通过如下操作步骤获取日志文件中的日志和告警信息:

1.???????? 执行命令save logfile,手动将日志文件缓存区中的信息保存到日志文件中。

2.???????? 执行完上述命令后,将flash:/syslogfile/(V200R005C00及后续版本是flash:/logfile/)和flash:/resetinfo/下的所有文件通过FTP/TFTP传输到终端(PC)上。

20161110091433025005.jpg

如果涉及堆叠系统***和复位等故障,需要收集所有相关成员交换机中的日志文件。

3.2 设备异常重启后,无法启动

设备重启后无法启动类故障,要根据设备启动时提示的打印信息来判断故障原因,多为硬件器件故障或大包文件丢失或损坏导致,下面列出常见的几种典型现象及原因,更多无法启动类的故障处理方法可参见《设备无法启动》故障专题手册。

故障现象1

设备反复重启,启动时的打印以下几种信息:

DRV_Arch_Init: chip_init ret 1 
?root <cx_lsw_init.c,5554> DRV_Lsw_Init: DRV_Arch_Init Fail! 
BIOS LOADING ... 
Copyright (c) 2008-2010 HUAWEI TECH CO., LTD. 
(Ver127, Jan 18 2011, 22:45:47) 
?
Press Ctrl+B to enter BOOTROM menu... 0 
Auto-booting... 
Update Epld file ............................ None 
Decompressing VRP software .................. done 
USB2 Host Stack Initialized. 
USB Hub Driver Initialized 
USBD? Wind River Systems, Inc. 512 Initialized 
EHCI Controller found. 
Waiting to attach to USBD... 
USB_MODE_REG=0x3 
Done. 
usbPegasusEndInit () returned OK 
0x62ffe68 (tRootTask): usbBulkDevInit() returned OK 
logTask: 6 log messages lost. 
?
root <cx_lsw_init.c,4634> DRV_PDT_Func_Init: DRV_VLAN_AddMember ret 8 
root <cx_lsw_init.c,5634> DRV_Lsw_Init: DRV_PDT_Func_Init Fail! 
-------------------------------------------------------------------- 
soc num 1, port num 28 
soc 0 info: 
modid 0, devid 0xdd74, venid 0x11ab, bar0 0xf4000000, bar1 0x0 
--------------------------------------------------------------------

或:

There 
Initializing LSW ....................... failed 
is

或:

Drv_Lsw_Probe: Warning: Not All Chip Probed!

或:

Error: Some LSW chips are not detected

打印信息中提示Lsw类异常信息,此问题一般是转发器件LSW初始化故障,建议联系技术支持人员处理。

故障现象2

设备运行中突然重启,之后无法启动,启动时的打印信息如下:

BIOS LOADING ... 
BIOS LDDR SDRAM test ...............fail 
Error type: Data bus walk 0 
Error bus : MDQ 0x0000000B 

打印信息中提示LDDR SDRAM test ..................fail,报此错误的一般原因为DDR内存或CPU个体失效,建议联系技术支持人员处理。

故障现象3

设备运行中突然重启,之后无法启动,并且无法格式化和擦除Flash。

FILESYSTEM SUBMENU 
1. Erase Flash 
2. Format flash 
3. Delete file from Flash 
4. Rename file from Flash 
5. Display Flash files 
6. Update EPLD file 
7. Return to main menu 
Enter your choice(1-7): 2 
Note: Format flash will damage Flash file system. 
Format flash? Yes or No(Y/N): y 
Formatting Flash, please waiting several minutes .Track_record_number 29.9 
format failed! 
FILESYSTEM SUBMENU 
1. Erase Flash 
2. Format flash 
3. Delete file from Flash 
4. Rename file from Flash 
5. Display Flash files 
6. Update EPLD file 
7. Return to main menu 
Enter your choice(1-7): 1 
Note: Erasing flash will damage Flash file system. 
After erasing Flash, you should reset your system. 
Erase flash? Yes or No(Y/N): y 
Erase flash ...Erase failed!!

此类问题一般是由flash个体失效导致,建议联系技术支持人员处理。

故障现象4

设备反复重启,启动时打印以下几种信息:

Begin to start the system, please waiting ...... 
INSTALL IPC AND VP DRIVER........OK 
VOS VFS init.....................OK 
Startup File Check...............OK 
Paf File Read....................OK 
VOS monitor init.................OK 
CFM init advance.................OK 
PAT init ........................OK 
HA S2M init......................OK 
VOS VFS init hind ...............OK 
VRP_Root begin... 
VRP_InitializeTask begin... 
Init the Device Link.............OK 
CFG_PlaneInit begin..............OK 
CFM_Init begin...................OK 
CLI_CmdInit begin................OK 
VRP_RegestAllLINKCmd begin.......OK 
create task begin................ 
task init begin... 
ECMM.........................................................................RUN 
cmd register begin... 
cmd register end... 
Recover configuration... 
Error: PoE driver init fail.

或:

Recover configuration... 
Error: Failed to initialize the PoE chips

打印信息中提示初始化PoE失败,此问题有两个原因引起:

l?? PoE电源的-53V无输出,导致PoE功能初始化失败。

l?? 设备内部的PoE模块本身故障导致初始化失败。

??????????????????????????????? 步骤 1???? 请先确认是否是插入了非PoE电源模块,如果是,请更换配套的PoE电源。

??????????????????????????????? 步骤 2???? 如果已经是PoE电源,请尝试交叉验证电源模块。

??????????????????????????????? 步骤 3???? 如果是内置的电源模块,无法交叉验证,建议联系技术支持人员处理。

----结束

故障现象5

设备反复重启,启动时打印信息如下:

BIOS 
Register Contents when exception occur
sr = 0x0040FB7E?????? cause = 0x0000FB7E???????? epc = 0xBFC0FFFE 
badVAdrs = 0xBFC0FFFE??? at = 0x0000FFFE????????? v0 = 0xBFC0FFFE 
v1 = 0x0000FFFE????????? a0 = 0x0000FFFE????????? a1 = 0x0000FFFE 
a2 = 0x8000FFFE????????? a3 = 0x0000FFFE????????? t0 = 0xB800FFFE 
t1 = 0x0000FFFE????????? t2 = 0x0000FFFE????????? t3 = 0xFFFFFFFE 
t4 = 0x0000FFFE?????? ???t5 = 0x0001FFFE????????? t6 = 0xFFFFFFFE 
t7 = 0xBFC0FFFE????????? t8 = 0x0000FFFE????????? t9 = 0xBFC0FFFE 
s0 = 0xFFFFFFFE????????? s1 = 0x0000FFFE????????? s2 = 0xF7FDFFFE 
s3 = 0xFFDDFFFE????????? s4 = 0xFFFFFFFE????????? s5 = 0xFFFFFFFE 
s6 = 0x0000FFFE????????? s7 = 0xFBFFFFFE????????? k0 = 0x0000FFFE 
k1 = 0x5555FFFE????????? gp = 0xDFEDFFFE????????? ra = 0xBFC0FFFE

此问题可能为硬件故障或bootrom被破坏,可能的产生原因包括读写操作过程中电压异常以及浪涌、静电等,建议联系技术支持人员处理。

故障现象6

设备反复重启,启动时打印信息有提示nand flash方面的报错:

Press Ctrl+B to enter BOOTROM menu... 0 
Auto-booting... 
Loading[flash:/S5700LI-V200R001C00SPC300.cc]............. 
Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620 

Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620 

Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620 

Assert at file: 'E://V2R1_Main_1//product//BSP//bsp//drv//flash//nand//nflash.c', Line: 620

此问题为nand flash检测到bit跳变,恢复步骤如下:

??????????????????????????????? 步骤 1???? 使用V200R003或之后软件版本的bootrom擦除flash。

??????????????????????????????? 步骤 2???? 格式化flash。

???????? BootLoad Menu???????????????????????????????????????????? 
???? 1. Boot with default mode???????????????????????????????????? 
???? 2. Enter serial submenu???????????????? ??????????????????????
???? 3. Enter startup submenu????????????????????????????????????? 
???? 4. Enter ethernet submenu???????????????????????????????????? 
???? 5. Enter filesystem submenu?????????????????????????????????? 
???? 6. Enter password submenu???????????????????????????????????? 
???? 7. Clear password for console user??????????????????????????? 
???? 8. Reboot???????????????????????????????????????????????????? 
?????????????? 
??? Enter your choice(1-8): 5??????????????????????????????????? ??
?????????????????????????????????????????????????????????????????? 
??????? FILESYSTEM SUBMENU???????????????????????????????????????? 
???? 1. Erase Flash??????????????????????????????????????????????? 
???? 2. Format Flash???????????????????????????? ?????????????????

??????????????????????????????? 步骤 3???? 重新加载匹配该bootrom的大包文件。

----结束

故障现象7

设备反复重启,启动时打印信息提示获取不到板类型:

BIOS LOADING ...????????????????????????????????????????????????????? 
Can not get board information by GPIO, Please Check!????????????????? 
Don't support board type(0x0)!???????????????????????? ??????????
Copyright (c) 2008-2010 HUAWEI TECH CO., LTD.???????????????????????? 
(Ver128, Aug 24 2010, 21:58:24)?????????????????????????????????????? 
Press Ctrl+B to enter BOOTROM menu ...?????????????????????????????? 
Auto-booting...????????????????? ?????????????????????????????????????
Please confirm app file typeID[0x0]!???????????????????????????????? 
Invalid package file!???????????????????????????????????????????????? 
Auto-booting failed!??????????????????????????????????????????????? 
Auto-booting with last time startup file...?????????????????????????? 
Last time startup file is the same as current startup file!??????? ?
Seeking a VRP software in flash file-system...?????????????????????? 
Now, Current startup file is flash:/S2300-V100R005C01SPC100.cc??????? 
Please confirm app file typeID[0x0]!????????????????????????????????? 
Invalid package file!???????????????????? ????????????????????????????
Auto boot failed!???????????????????????????????????????????????????? 
Auto-booting failed!???????????????????????????????????????????????? 
Reboot...????????????????????????????????????????????????????????? 
BIOS LOADING ...? ???????????????????????????????????????????????????
Can not get board information by GPIO, Please Check!??????????????? 
Don't support board type(0x0)!?????????????????????????????????????? 
Copyright (c) 2008-2010 HUAWEI TECH CO., LTD.??????????????????? ?????
(Ver128, Aug 24 2010, 21:58:24)

此问题大部分是由非认证光模块导致IIC总线挂死,导致启动时挂在该总线上的板类型信息获取不到而重启,请拔出所有非认证光模块后再尝试启动。并建议更换华为认证光模块。

故障现象8

设备反复重启,启动时打印信息提示大包文件CRC校验错误:

Error: Loading error in CRC checksum. File CRC is 0x1a20, calculated CRC is 0xc173 
Error: Invalid package file

此问题大部分是大包文件被破坏导致的,比如写flash时可能有突发掉电导致flash文件出错,请重新加载大包文件恢复。

故障现象9

设备反复重启,启动时打印信息如下:

BIOS LOADING ... 
Copyright (c) 2011-2012 HUAWEI TECH CO., LTD. 
(Ver121, Jun 14 2012, 10:49:20) 
Current flash Fs: DosFs 
??????????????????????????????????????? ??????????????????????????????
flash:/? - Volume is OK 
Press Ctrl+B to enter BOOTROM menu... 0 
Auto-booting... 
Loading[flash:/s5700li-v200r001c00spc300.cc]................... 
Update Epld file ............................ None 
Decompressing VRP software .................. 
?Decoding error = 1 
failed! 
?
Auto-booting failed! 
?
Auto-booting with last time startup file... 
The last time startup file is not a .cc file! 
?
Seeking a VRP software in flash file-system... 
flash:/s5700li-v200r001c00spc300.cc [49+2]................... 
Now, Current startup file is flash:/s5700li-v200r001c00spc300.cc 
Update Epld file ............................ None 
Decompressing VRP software .................. 
Decoding error = 1 
failed! 
?
Auto boot failed! 
?
Auto-booting failed! 
Reboot...

此问题为DDR内存失效引起,建议联系技术支持人员处理。

故障现象10

设备反复重启,启动时打印信息如下:

BIOS LOADING ... 
Copyright (c) 2008-2011 HUAWEI TECH CO., LTD. 
(Ver148, Jun 26 2012, 18:45:31) 
?
Press Ctrl+B to enter BOOTROM menu ... 0 
Auto-booting... 
Decompressing Image file ... done 
ERR

此问题为LSW初始化失败、DDR内存失效或PCB损坏引起,建议联系技术支持人员处理。

经验总结

下表列出设备启动打印信息中常见的异常关键字段,可以简单判断定位是否硬件问题。

表3-5 设备启动打印信息中常见的异常关键字段

异常打印信息

含义

flash initialization failed

FLASH初始化失败。

DRV_Lsw_Init: DRV_Arch_Init Fail!

LSW器件初始化失败。

Initializing LSW ........................ faile

LSW器件初始化失败。

Drv_Lsw_Probe: Warning: Not All Chip Probed!

LSW器件初始化失败。

Some LSW chips are not detected

LSW器件初始化失败。

PoE driver init fail

PoE初始化失败。

Failed to initialize the PoE chips

PoE初始化失败。

Don't support board type(0x0)!

获取不到板类型。

Open %s failed

校验文件时打开失败。

Interconnection threestep selftest Error

外联三步法测试失败。

DDR SDRAM test ................. fail

内存测试失败。

DDR SDRAM test ................. Untest

未做内存测试。

DDR SDRAM test ................. Invalid

内存测试结果无效。

Loading error in CRC checksum

大包文件CRC校验错误。

Init flash update area error!

重新初始化FLASH区域失败。

Password is wrong, System will reboot...

输入密码错误。

Data error in Flash description area!

描述区数据错误。

Data error in Flash description backup area!

备份区数据错误。

Auto-booting...

不进入bootrom菜单而自动启动大包,但打印时还什么都没有做。之后开始按照前次启动的信息进行寻找可启动大包的操作。

Decompressing VRP software...

进行大包的解压操作,操作成功则继续,操作失败则重启进行版本回退。

Auto-booting with last time startup file...

上次自动启动失败,进行版本回退,使用最后一次成功启动的大包进行启动。

Last time startup file is the same as current startup file

最后一次成功启动的大包与配置的自动启动大包相同。不使用此大包进行版本回退。自动找寻大包进行启动。

Seeking a VRP software in flash file-system...

开始自动找寻可启动的大包。

Auto-booting failed!

自动启动失败。

VFS_FLASH_INIT failed

初始化FLASH文件系统失败。

haven‘t %s device

获取FLASH存储设备的索引号失败。

Can not open Flash file: %s

打开文件失败。

The last time startup file is not a .cc file!

上次启动文件类型不对。

Can not find any file in flash file-system!

FLASH中没有文件。

%s is not a valid startup file!

寻找到的文件不是有效的大包文件。

There is not other valid startup file in flash file-system!

无法找到有效的启动文件。


4 框式交换机单板复位故障

4.1 所有单板均复位

4.1.1 故障诊断流程

框式交换机是分布式系统,各块单板由独立的系统构成。接口板之间独立运行互不影响,接口板由主用主控板统一管理控制。如果主控板故障会导致接口板复位,但框式交换机采用两块主控板备份机制,一般情况下主用主控板故障会自动切换到备用主控板,而原先的主控板自动复位之后成为新的备用主控板,所以双主控情况下一块主控板复位一般不会导致整机复位。

图4-1 所有单板均复位故障诊断流程图

20161110091434341006.png

?

4.1.2 故障诊断步骤及解决措施

??????????????????????????????? 步骤 1???? 通过display device命令,查看重启设备主控板的个数。

<HUAWEI> display device 
S7712's Device status: 
Slot? Sub Type ????????Online??? Power????? Register?????? Status???? Role 
------------------------------------------------------------------------------- 
3???? -?? -??????????? Present?? PowerOff?? Unregistered?? -????????? NA 
4???? -?? ES0D0G48TA00 Present?? PowerOn??? Registered???? Normal???? NA 
6???? -?? ES0D0X4UXC00 Present?? PowerOn??? Registered???? Normal???? NA 
9???? -?? ES0D0F48TC00 Present?? PowerOn??? Registered???? Normal???? NA 
10??? -?? ES0D0G24SC00 Present?? PowerOn??? Registered???? Normal???? NA 
13??? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? Slave 
14??? -?? ES0D00SRUA00 Present?? PowerOn??? Registered???? Normal???? Master 
PWR1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA 
CMU1? -?? LE0DCMUA0000 Present?? PowerOn??? Registered???? Normal???? Master 
FAN1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA 
FAN2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA 
FAN3? -?? -??????????? Present?? PowerOn??? Registered?? ??Normal???? NA 
FAN4? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA?

??????????????????????????????? 步骤 2???? 如果设备是单主控,主控板复位后会造成所有业务板一起复位,主控板复位的诊断方法可参考4.2 单一单板复位。

??????????????????????????????? 步骤 3???? 如果设备是双主控,一般是由供电问题引起的整机复位。

首先判断是否由外部供电原因引起的复位。

根据记录的reboot time(使用display logbuffer命令查看设备的复位记录),确认用户电网该时间段有没有突发掉电的情况,主要包括以下几个方面:

l?? 是否人为操作导致的设备下电。

l?? 如果是UPS供电,查看UPS的日志,在该时间段是否有异常记录。

l?? 确认同一个机柜/同一个供电的网络内其他设备有没有过掉电。

l?? 该时间段是否有大功率设备接入导致供电不足的情况。

l?? 排查是否有线路老化、接触不牢导致掉电的情况。

l?? 使用万用表测量输入电压是否正常。

如果排查存在异常,按照排查出的具体原因解决外部供电的问题。

??????????????????????????????? 步骤 4???? 如果确认外部电网没有问题,通过display alarm all查看设备自身的电源模块是否存在告警。

常见的电源告警信息有:

l?? 当信息中包含Power is invalid for not support时,表示设备插入了不兼容的电源。

l?? 当对于同一电源,同时出现PWR_LACK和SWITCH_STAT传感器告警时,表示电源在位但是没有接电源线或电源开关没开。

l?? 如果单独出现PWR_FAULT传感器告警,则可能是因为电源风扇故障、输出过压、外部短路、无输出故障、没有电压输入等。

??????????????????????????????? 步骤 5???? 在客户允许的情况下,可以尝试更换电源槽位、交叉验证电源模块等手段确认是否电源模块自身故障。

??????????????????????????????? 步骤 6???? 如果排除自身电源模块的问题,请4.2.2.6 联系技术支持人员。

----结束

4.2 单一单板复位

4.2.1 故障诊断流程

图4-2 单一单板复位故障诊断流程图

20161110091435925007.png

?

4.2.2 故障诊断步骤及解决措施

4.2.2.1 查看交换机的类型和版本信息

??????????????????????????????? 步骤 1???? 通过display device命令,查看交换机的型号及各部件的状态信息。

<HUAWEI> display device 
S9706's Device status:?????????????????????????????????????????????????????????? 
Slot? Sub Type???????? Online??? Power????? Register?????? Status???? Role?????? 
-------------------------------------------------------------------------------? 
1???? -?? EH1D2X12SSA0 Present?? PowerOn??? Registered???? Normal???? NA???????? 
4???? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? NA???????? 
7???? -?? EH1D2SRUDC00 Present?? PowerOn??? Registered???? Normal???? Master???? 
PWR1? -?? -??????????? Present?? -????????? Unregistered?? -????????? NA???????? 
PWR2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???????? 
CMU1? -?? EH1D200CMU00 Present?? PowerOn??? Registered???? Normal???? Master???? 
FAN1? -? ?-??????????? Present?? PowerOn??? Registered???? Normal???? NA???????? 
FAN2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???????

通过显示信息可看出设备型号为S9706以及单板、电源和风扇的状态信息。

??????????????????????????????? 步骤 2???? 通过display version命令,查看交换机的版本信息。

<HUAWEI> display version
Huawei Versatile Routing Platform Software?????????????????????????????????????? 
VRP (R) software, Version 5.160 (S9700 V200R008C00SPC300)????????????????????? ??
Copyright (C) 2000-2016 HUAWEI TECH CO., LTD???????????????????????????????????? 
Quidway S9706 Terabit Routing Switch uptime is 0 week, 3 days, 18 hours, 31 minu 
tes????????????????????????????????????????????????????????????????????????????? 
BKP 0 version information:?????????????????????????????????????????????????????? 
1. PCB????? Version? : LE02BAKK VER.B??????????????????????????????????????????? 
2. Support? PoE????? : No??????????????????????????????????????????????????????? 
3. Board??? Type ????: EH1BS9706E00????????????????????????????????????????????? 
4. MPU Slot Quantity : 2???????????????????????????????????????????????????????? 
5. LPU Slot Quantity : 6???????????????????????????????????????????????????????? 
?????????????????????????? ??????????????????????????????????????????????????????
MPU 7(Master) : uptime is 0 week, 3 days, 18 hours, 31 minutes?????????????????? 
SDRAM Memory Size??? : 2048??? M bytes?????????????????????????????????????????? 
Flash Memory Size??? : 128???? M bytes?????????????????????????????????????????? 
NVRAM Memory Size??? : 512???? K bytes?????????????????????????????????????????? 
CF Card1 Memory Size : 479???? M bytes?????????????????????????????????????????? 
MPU version information :????????????????????? ??????????????????????????????????
1. PCB????? Version? : LE02SRUD0 VER.D?????????????????????????????????????????? 
2. MAB????? Version? : 1???????????????????????????????????????????????????????? 
3. Board??? Type???? : EH1D2SRUDC00????????????????????? ????????????????????????
4. CPLD0??? Version? : 1411.2411???????????????????????????????????????????????? 
5. BootROM? Version? : 0209.00dc???????????????????????????????????????????????? 
6. BootLoad Version? : 0209.00fa?????????????????????????????????? ??????????????
7. FPGA???? Version? : 1100.0800? 

通过显示信息可看出设备的软件版本为V200R008C00。

----结束

4.2.2.2 查看单板的复位原因

??????????????????????????????? 步骤 1???? 通过display reset-reason命令,查看所有单板的复位信息。

<HUAWEI> display reset-reason 
The LPU frame[1] board[1] has no reset records. 
The LPU frame[1] board[2] has no reset records. 
The LPU frame[1] board[3]'s reset total 1, detailed information: 
--? 1. 2012/03/13?? 19:58:15, Reset No.: 1 
?????? Reason: Check mod infomation fail 
The MPU frame[1] board[4] has no reset records. 
The MPU frame[1] board[5]'s reset total 967, detailed information: 
--? 1. 2012/03/20?? 13:07:52, Reset No.: 967 
?????? Reason: Warm reset board for no receiving message in a long time 
--? 2. 2012/03/20?? 12:57:52, Reset No.: 966 
?????? Reason: Warm reset board for no receiving message in a long time 
--? 3. 2012/03/20?? 12:47:52, Reset No.: 965 
?????? Reason: Warm reset board for no receiving message in a long time 
--? 4. 2012/03/20?? 12:37:52, Reset No.: 964 
?????? Reason: Warm reset board for no receiving message in a long time 
--? 5. 2012/03/20?? 12:27:52, Reset No.: 963 
?????? Reason: Warm reset board for no receiving message in a long time

也可通过display reset-reason solt ID命令,查看具体槽位上单板的复位信息,ID示具体槽位号。

表4-1 display reset-reason命令输出信息描述

项目

描述

LPU/MPU

业务接口板/主控板

frame

单板所在框号

board

单板所在槽位号

reset total

复位次数

detailed information

复位信息

Reset No.

复位编号

Reason

复位原因

?

??????????????????????????????? 步骤 2???? 分析查询到的复位原因并执行相应措施。display reboot-info查询到的复位原因如表4-2所示。

表4-2 复位原因及处理方法

复位原因

处理方法

用户相关

Reset by user command

命令行或网管复位

确认拥有复位权限的用户是否进行了复位操作

Power off by user command

VRP reset selfboard because of command

Reset board by vrp cmd

Reset board by snmp

Reset for rollback

The demo time of license is overtime

临时license到期后复位

请检查并联系华为获取license

加载相关

Reset for load

升级软件的时候,接口板加载软件后复位

无,属于正常复位

Reset for lpu resource-mode disaccord with mpu

接口板配置的资源模式和主控板不符合后复位

无,属于正常复位

Reset for the LPU patch file or module does not match that on the MPU

接口板配置的补丁文件或插件和主控板不符合后复位

等待单板注册上之后,再进行加载/删除补丁、加载/删除插件的操作

Reset for initializing the board's status by IFNET

主备倒换后,重新配置单板接口状态

l? 主备倒换时接口板配置未恢复,属于板间无法通讯

l? 主备倒换时接口板正常工作,属于正常情况

Reset slave board for memsize too little

备板内存小于主控板内存

检查备板内存大小,如果小于主控板内存需要更换

Reset for slave board's card statement disaccord with master's

两块主控板只有一块装有FSU等子卡

请保证两块主控都配置了相同的子卡或者都没有配置子卡

Reset for patch load

补丁加载后复位

接口板启动过程中有补丁操作,属于正常情况

Reset for patch get state fail

补丁加载失败复位

l? 启动过程中出现一两次属于正常情况

l? 多次出现请4.2.2.6 联系技术支持人员

Reset for patch load file fail

Reset for patch synchronize file fail

Reset for patch state compare fail

软件异常相关

VRP reset selfboard because of find deadloop

检测到死循环复位

通过查看告警及日志进一步定位

VRP reset selfboard because of find exception

检测到软件异常复位

4.2.2.6 联系技术支持人员

Board reset by VRP for schedule

拥塞导致异常复位

通过查看告警及日志进一步定位

VRP reset selfboard because of no memory

内存耗尽复位

l? 检查内存是否过高

l? 通过查看告警及日志进一步定位

Reset for memory use out

设备管理相关

Reset for no receiving mpu's heart

接口板40秒未收到主控板心跳报文后复位

单板无心跳复位,排查单板未插紧导致的单板复位

Reset for no heart

主控板30秒未收到单板心跳报文,复位接口板

Reset for not receiving register ack from mpu

接口板注册20次但无法收到主控板注册回应报文后复位

板间通讯存在故障,排查单板未插紧导致的单板复位

Reset for state not stable

主控板收到接口板报文时断时续,复位接口板

Warm reset board for no register in a long time

检测到单板30分钟内都未成功注册

Warm reset board for no receiving message in a long time

主控板10分钟都没有收到接口板的任何报文

Cold reset board for no receiving message in a long time

主控板20分钟都没有收到接口板的任何报文

Cold reset board for CPU is not active

主控板检测到单板CPU不工作

Power off the board because of reset three times continuously

单板在启动过程中复位了3次,下电复位单板

为防止热启动不成功,3次热启动之后下电复位一次

Reset for unregister but receive heartbeat info

单板未注册,但是收到了该单板心跳报文

通过查看告警及日志进一步定位

Reset for slave board class disaccord with mpu

主备板板类型不一致

查询主用和备用主控板的类型,更换单板保持一致

Reset for lpu or slave version disaccord with mpu

单板启动版本和主控板不一致

1、备板复位:确认主备之间版本,目前V1R2和V1R3无法自动同步版本会引发复位

2、其它单板复位:4.2.2.6 联系技术支持人员

Reset for no receiving master cpu's heart

VASP板CPU的主核60秒未收到副核的心跳

4.2.2.6 联系技术支持人员

硬件器件相关

Reset for selftest fail

单板自检失败

器件自检失败,尝试拔插单板和更换槽位。如不能解决可判断为单板故障。

Reset for CPLD self-test fail

CPLD自检失败

Reset selfboard because of initialize fsu fail

初始化FSU失败

reset for fpga load failed

FPGA加载失败

Reset for fpga in abnormal state

FPGA状态不正常

Reset for lanswitch chip parity error

lanswitch电路校验错误

Reset for FSU card type mismatch

FSU子卡不匹配

更换与框类型相匹配的FSU子卡,如不能解决请4.2.2.6 联系技术支持人员

Board reset by ISIS for purging LSP error

清除LSP异常

l? 启动过程中出现一两次属正常情况。

l? 多次出现请4.2.2.6 联系技术支持人员

集群相关

Reset for frame combine

集群合并复位

正常情况

Reset for frame split

集群***复位

Reset for fsp

集群复位

Reset for one frame register, but the board is not register

设备注册时单板未注册

Reset for slave to master in slave frame, but self is not register

在备设备上,备升主,单板还未注册

Reset for slave to master in master frame, but self is not register

在主设备上,备升主,单板还未注册

Reset by switchover command from system master chassis

命令行集群倒换复位

Reset by command from other chassis

其他集群单板下发复位命令

Reset board after syn version

版本同步后复位

Reset board for Peer frame is in CSS force master status

对框设置了强制主而复位

Reset for fpga state disaccord with system master

表示主控板为SRUC的设备与主控板为SRUD的设备组建集群时,主控板为SRUD的设备使能了主控板硬件驱动引擎。

需要先执行命令undo detect-engine enable去使能主控板硬件驱动引擎(去使能后需要重启生效),然后再进行集群配置。

?

----结束

4.2.2.3 查看告警

查看告警方法

当设备发生故障,或设备所处环境超出正常工作要求时,将导致系统无法正常工作,系统能够根据不同类型的故障产生告警信息。

告警信息可以通过如下两种方式查看到:

l?? 通过网络管理系统界面(如esight网管)直接查看告警信息。

l?? 通过display trapbuffer [ size value ]命令在命令行终端界面查看设备上告警显示区内的告警信息。

告警显示区内的信息与指定的告警显示条目,即value的大小有关。如果当前告警显示区内信息数少于用户指定的显示条目,则在终端界面上显示实际条数的告警信息。

<HUAWEI> display trapbuffer 
Trapping buffer configuration and contents : enabled???????????????????????????? 
Allowed max buffer size : 1024?????????????????????????????????????????????????? 
Actual buffer size : 256???????????????????????????????? ????????????????????????
Channel number : 3 , Channel name : trapbuffer?????????????????????????????????? 
Dropped messages : 0???????????????????????????????????????????????????????????? 
Overwritten messages : 6248??????????????????????????????????????? ??????????????
Current messages : 256?????????????????????????????????????????????? 
#Sep 19 2012 04:38:03+08:00 HUAWEI DS/4/DATASYNC_CFGCHANGE:OID 1.3.6.1.4.1.2011 
.5.25.191.3.1 configurations have been changed. The current change number is 8,? 
the change loop count is 0, and the maximum number of records is 4095.?????????? 
#Sep 19 2012 04:37:39+08:00 HUAWEI LINE/5/VTYUSERLOGIN:OID 1.3.6.1.4.1.2011.5.2 
5.207.2.2 A user login. (UserIndex=34, UserName=VTY, UserIP=10.135.18.114, UserC 
hannel=VTY0)?????? ??????????????????????????????????????????????????

也可使用如下命令来查看设备的具体告警信息:

l?? 执行命令display alarm all,查看所有槽位的告警信息。

l?? 执行命令display alarm active,查看设备启动后当前仍然未恢复的告警信息。

l?? 执行命令display alarm history,查看设备启动后记录的历史告警信息。

与单板复位相关的常见告警及处理方法

表4-3 与设备重启相关的常见告警及处理方法

20161110094218258001.png
20161110094218814002.png
20161110094219612003.png
20161110094220246004.png
20161110094221149005.png
20161110094222828006.png
20161110094222275007.png
20161110094223867008.png
20161110094224039009.png

20161110091430589001.jpg

建议采用如下技巧帮助您更快速的搜索到准确的告警:

l? 由于“告警ID”唯一标识一条告警,建议您通过“告警ID”在《告警处理》手册中进行搜索,从而快速查找到对应告警的解释及处理步骤。

l? 对于一条ID相同的告警,如果触发原因不同,输出信息中通过携带不同的错误码(如BaseTrapProbableCause)来标识,这时,请通过错误码在《告警处理》手册中进一步搜索。

l? 也可以通过信息查询助手工具直接查询相关告警信息。

查询时请勿携带可变信息进行搜索,例如告警产生时间、接口编号、进程编号、设备命名等。

4.2.2.4 查看设备外观和环境

如果单板复位原因为单板与主控板之间通信异常,或者查看的告警中发现电源、风扇或温度类的告警,可通过查看设备外观和外部环境来排查。

排查单板未插紧导致的单板复位

如果单板复位原因为无心跳复位或与主控板间通信异常,可能原因是单板未插紧导致。

??????????????????????????????? 步骤 1???? 现场查看复位单板和主控板是否安装到位。

??????????????????????????????? 步骤 2???? 拔出复位单板,查看单板的连接器是否存在倒针。

??????????????????????????????? 步骤 3???? 如果以上两点均排除,可将单板安装到其它槽位或使用新单板来做交叉验证,排查是单板本身故障或机框故障。

??????????????????????????????? 步骤 4???? 如果仍无法排除故障,请4.2.2.6 联系技术支持人员。

----结束

排查电源异常导致的单板复位

??????????????????????????????? 步骤 1???? 根据记录的reboot time,确认用户电网该时间段有没有突发掉电的情况,主要包括以下几个方面:

l?? 是否人为操作导致的设备下电。

l?? 如果是UPS供电,查看UPS的日志,在该时间段是否有异常记录。

l?? 同一个机柜/同一个供电的网络内其他设备有没有过掉电。

l?? 该时间段是否有大功率设备接入导致供电不足的情况。

l?? 排查是否有线路老化、接触不牢导致掉电的情况。

l?? 使用万用表测量输入电压是否正常。

如果排查存在异常,按照排查的具体原因解决外部供电的问题。

??????????????????????????????? 步骤 2???? 如果确认外部电网没有问题,排查下交换机自身电源是否异常。检查电源模块是否被拔出或安装牢固。在客户允许的情况下,可以尝试更换电源槽位、交叉验证电源模块等手段确认是否电源模块自身故障。

??????????????????????????????? 步骤 3???? 如果交叉验证后故障跟随设备,请4.2.2.6 联系技术支持人员。

----结束

排查温度或风扇异常导致的单板复位

??????????????????????????????? 步骤 1???? 查看设备的工作环境温度是否正常(一般设备的工作环境温度为0°C~45°C),如果温度过高,相应降低机房的环境温度。

??????????????????????????????? 步骤 2???? 排除设备散热系统的异常。查看设备的风道、风扇和防尘网,保证:

l?? 设备的进风口(前侧和左侧)、出风口(后侧)无遮挡,有侧门将设备相互隔开。如果有阻挡,清除阻挡后观察设备的温度是否恢复正常。

l?? 风扇运转正常。查看风扇模块是否被拔出或安装牢固,检查风扇模块的出风口是否有气流排出。

l?? 防尘网状态正常,不会造成空气无法进入设备的情况。如果防尘网有阻塞请清洗或更换防尘网。

??????????????????????????????? 步骤 3???? 如果排查为风扇故障,可通过更换风扇模块解决。

??????????????????????????????? 步骤 4???? 上述步骤完成后仍无法定位,请3.1.2.6 联系技术支持人员。

----结束

4.2.2.5 查看日志

如果通过以上步骤仍无法定位设备重启的原因,可通过查看设备日志进一步分析。

查看日志方法

设备在运行过程中,主机软件中的日志模块会对运行中的各种情况进行记录,从而形成日志信息。日志信息主要用于查看设备的运行状态、分析网络的状况以及定位问题发生的原因,为系统进行诊断和维护提供依据。

可以通过控制口或telnet方式登录到设备,使用命令display logbuffer查看保存在日志缓存中的内容,还可以在设备上对日志信息进行保存,使用syslog协议将日志信息输出到日志服务器。

# 使用命令display logbuffer查看Log缓冲区的所有日志信息。

<HUAWEI> display logbuffer 
Logging buffer configuration and contents : enabled?????????????????? 
Allowed max buffer size : 1024??????????????????????????????????????? 
Actual buffer size : 512???????????????????????????????????? ?????????
Channel number : 4 , Channel name : logbuffer???????????????????????? 
Dropped messages : 0????????????????????????????????????????????????? 
Overwritten messages : 0????????????????????????????????????????????? 
Current messages : 43??????????? ?????????????????????????????????????
?
Oct 16 2013 06:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[3]: Disk space is insufficient. The system begins to delete unused log files.? 
Oct 10 2013 19:06:48 HUAWEI %%01VFS/4/DISKSPACE_NOT_ENOUGH(l)[4]: Disk space is insufficient. The system begins to delete unused log files 
? ---- More----

与设备重启相关的常见日志及处理方法

表4-4 与设备重启相关的常见日志及处理方法

信息摘要

日志含义

可能原因

处理方法

ALML/4/48V_CHECK_FAULT

传感器检测到单板两路48V电源告警。

单板的电源供电线路出现问题,单板无法上电。

l? 确认电源是否在位。

l? 如果电源在位,单板无法上电,请4.2.2.6 联系技术支持人员。

ALML/0/BRD_PWOFF

风扇故障导致单板温度过高而掉电。

有可能风扇被拔出或者风扇故障停转。

l? 执行display temperature all命令,通过“Status”字段查看设备的温度是否正常,通过“Temperature.(C)”字段查看设备各部件当前温度值。如果“Status”字段显示为minor,则执行下一步。

l? 排除设备散热系统的异常。参考排查温度或风扇异常导致的单板复位

l? 经过排除后单板温度仍然过高,请重新插拔单板,验证单板能否注册,如果不能注册,请4.2.2.6 联系技术支持人员。

ALML/4/ENTPOWEROFF

单板被下电。

l? 通过命令行power off slot slot-id将单板下电。

l? 系统检测到电源功率不足,将单板下电。

如果是电源问题,参考排查电源异常导致的单板复位

ALML/4/ENTRESET

单板被复位。

l? 命令行复位单板。

l? 系统运行故障。复位原因可查看日志显示信息中的reason字段。

如果是非命令行复位,请观察日志描述的复位原因,4.2.2.6 联系技术支持人员。

ALML/4/ENT_PULL_OUT

单板或者子卡被拔出。

l? 人为拔出单板或者子卡。

l? 单板或者子卡接口与插槽对接松动。

l? 如果是人为拔出操作,则不需要处理。

l? 如果是接口对接发生松动,则重新插入单板或者子卡。

ALML/4/HSB_SWITCH_CAUSE

记录主用主控板复位信息。

主控板复位的原因描述。具体情况如下:

l? Unknown switch reason:未知原因

l? VRP command force:命令行强制复位。

l? master MPU is no memory:主用主控板内存不足。

l? VRP find task deadloop:任务死循环。

l? Batch was not over:任务异常。

l? Master switch to slave Interrupt:主备倒换导致主用主控板复位。

l? Ecm Channel was faulty:以太网管理通道倒换(ECM)通道故障。

l? Monitor bus communication Interrupt:CANbus通信中断。

l? MPU board was pulled out:主控板被拔出。

l? 请确认是否有人为插拔主控板。

l? 请使用display current-configuration命令查看是否有“slave switchover”命令确强制主备倒换。

l? 4.2.2.6 联系技术支持人员

ALML/4/MASTER_TO_SLAVE

主用主控板变成备用主控板。

通过命令行slave switchover进行主备切换。(如果主用主控板因为异常重启变成备用,则不会上报这条日志。)

通过命令行进行主备切换,不需要处理。

ALML/4/POWERSUPPLY_OFF

电源下电。

l? 人为将电源下电。

l? 电源异常不供电。

排查电源异常导致的单板复位

ALML/4/PWRFANABSENT

风扇不在位。

风扇不在位。

排查温度或风扇异常导致的单板复位

ALML/4/TEMP_UPPER

温度传感器监控到温度超过上限值。可能是排风不畅,防尘网堵塞,风扇故障,空闲槽位未插入假面板等原因引起的。

l? 设备排风不畅,导致热量散发不畅。

l? 防尘网堵塞。

l? 空闲槽位未插入假面板。

l? 设备所处环境温度过高。

l? 设备的风扇数量不足。

l? 设备的风扇发生故障。

排查温度或风扇异常导致的单板复位

FMEA/6/AVS_ABNORMAL

单板上的AVS电源异常。

单板硬件故障。

更换单板。

MAD/4/CONFLICT_DETECT

发现多主场景。

集群链路故障,出现多主。

修复集群链路故障。

MAD/4/MEMBER_LOST

检测集群邻居失败,集群***。

l? 集群链路故障。

l? 集群设备故障。

l? 修复集群设备故障。

l? 修复集群链路故障。

?

20161110091430589001.jpg

建议采用如下技巧帮助您更快速的搜索到准确的日志:

l? 由于“信息摘要”唯一标识一条日志,建议您通过“信息摘要”在《日志参考》手册中进行搜索,从而快速查找到对应日志的解释及处理步骤。

l? 使用《日志参考》手册时,请勿携带可变信息进行搜索,例如日志产生时间、接口编号、进程编号、设备命名等。

举例如下:

对于出现的日志:Apr 27 2014 07:45:35 HUAWEI %%01SHELL/4/LOGIN_FAIL_FOR_INPUT_TIMEOUT(s)[6]:Failed to log in due to timeout.(Ip=10.135.19.157, UserNa me=**, Times=1, AccessType=TELNET, VpnName=)。使用信息摘要“LOGIN_FAIL_FOR_INPUT_TIMEOUT”在《日志参考》手册中即可搜索到对应的解释为“用户由于输入用户名或密码超时导致登录失败”。

4.2.2.6 联系技术支持人员

如果经过以上步骤仍无法定位单板复位原因,请收集相关故障信息,并将其提交给代理商或华为技术有限公司进行定位和处理。

需要收集的故障信息如下:

?发生故障的时间、故障点的网络拓扑结构(例如故障设备连接的上下游设备、所处的网络位置)、导致故障的操作、故障后已采取的措施和结果、故障现象和影响的业务范围等信息。

?发生故障的设备的名称、版本、当前配置、接口信息等,可使用一键信息采集

?发生故障时产生的日志信息。

?如果单板复位后无法正常注册,还需要收集在启动过程中的串口打印信息。

一键信息采集

通过display diagnostic-information命令可以获取设备的诊断信息,它集合了多条常用display命令的输出结果,包括设备的启动配置、当前配置、接口信息、时间、系统版本等等,是一键采集的好方法。

设备提供了display diagnostic-information file-name ]命令,该命令可以将设备目前运行的诊断信息输出到屏幕或txt文件,如果不加file-name参数,就是将诊断信息输出到屏幕;如果加file-name参数,就是将诊断信息输出到以file-name命名的txt文件,包含启动配置、当前配置、接口信息、时间、系统版本等大量有用信息。建议将诊断信息输出到txt文件。该命令使用方法如下:

<HUAWEI> display diagnostic-information dia-info.txt 
? This operation will take several minutes, please wait......................... 
Info: The diagnostic information was saved to the device successfully.

txt文件的缺省保存路径为cfcard:/,用户视图下使用dir命令可以确认文件是否正确生成。

采用直接在屏幕的显示方式,如命令输出的诊断信息较长,可以通过按Ctrl+C停止。

另外,该命令主要用于问题定位,搜集系统诊断信息,搜集时可能会影响系统的性能(例如CPU占用率升高等)。因此,在系统正常运行时不建议执行该命令。并且,严禁在连接到设备的多个终端上同时执行该命令,否则可能造成设备的CPU占用率明显增高,导致设备性能下降。

目前常用的终端配置软件都提供了将显示信息输出到文件的功能,如Windows自带的超级终端:“传送 > 捕获文字”,输入保存的文件名后点击“启动”即可。完成配置后,直接执行display diagnostic-information命令,则会将所有诊断信息直接输出到显示终端屏幕上,并自动以文件形式保存到配置终端指定的路径下。

获取日志文件

设备支持日志和告警信息保存到日志文件中,用户可通过如下操作步骤获取日志文件中的日志和告警信息:

1.???????? 执行命令save logfile,手动将日志文件缓存区中的信息保存到日志文件中。

2.???????? 执行完上述命令后,将cfcard:/logfile/下的文件通过FTP/TFTP传输到终端(PC)上。如果无法使用FTP/TFTP传输,可以通过more命令查看,如在用户视图下执行more logfile/log.log。

20161110091430589001.jpg

l? logfile文件夹下可能会有大量的日志文件,一般只需要采集故障发生时间点的日志文件。

l? 如果出现的故障涉及到备用主控板,备用主控板保存的日志文件也需要采集,备用主控板的日志文件保存在slave#cfcard:/logfile/下。

l? 如果涉及堆叠系统***和复位等故障,需要收集所有相关成员交换机中的日志文件。

4.3 单板复位故障的典型案例

4.3.1 设备整机复位

现象描述

S9312设备一天内出现2次整机异常复位。

Mar 20 2014 13:54:27 7F-S9312 SNMP/4/COLDSTART:OID 1.3.6.1.6.3.1.1.5.1 coldStart. 
Mar 20 2014 17:06:39 7F-S9312 SNMP/4/COLDSTART:OID 1.3.6.1.6.3.1.1.5.1 coldStart.

原因分析

??????????????????????????????? 步骤 1???? 使用display device命令查看设备信息。

S9312's Device status: 
Slot? Sub Type???????? Online??? Power????? Register?????? Alarm????? Primary 
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 
1???? -?? LE0D0VAMPA00 Present?? PowerOn??? Registered???? Normal???? NA???? 
2???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA???? 
4???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA???? 
6???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA???? 
8???? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA???? 
10??? -?? LE0DG48CEAT0 Present?? PowerOn??? Registered???? Normal???? NA???? 
13??? -?? LE0MSRUA???? Present?? PowerOn??? Registered???? Normal???? Master 
14??? -?? LE0MSRUA???? Present?? PowerOn??? Registered???? Normal???? Slave? 
PWR1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???? 
PWR2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???? 
CMU1? -?? LE0DCMUA0000 Present?? PowerOn??? Registered???? Normal???? Master 
FAN1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???? 
FAN2? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???? 
FAN3? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???? 
FAN4? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???

设备使用双主控和双电源模块,所有模块状态正常。

??????????????????????????????? 步骤 2???? 复位记录中的Cordstart为冷启动,即下电启动。设备使用双电源模块,两个电源模块同时故障导致设备复位的可能很小,查看告警记录在复位时间之前也没有看到任何电源相关的告警。

??????????????????????????????? 步骤 3???? 经查看电源模块的外观正常,安装牢固,电源线的连接均正常。

??????????????????????????????? 步骤 4???? 排查外部供电原因,与客户确认设备复位当天整个楼层出现过短路跳闸的情况,判断为外部电网异常导致的设备下电复位。

----结束

处理建议

继续观察外部的供电情况和设备的运行情况。

总结经验

如果框式交换机采用双主控情况下出现整机复位,一般均由电源问题引起。可从外部供电和设备电源自身问题排查,同时结合日志信息中记录的复位原因来定位。

4.3.2 备用主控板反复复位

现象描述

S9306的8号主控板槽位安装新的备用主控板之后反复复位,之前该槽位主控板使用正常。

原因分析

??????????????????????????????? 步骤 1???? 使用display device命令查看设备信息。

<HUAWEI> display device 
S9306's Device status: 
Slot? Sub Type???? Online??? Power????? Register?????? Alarm????? Primary 
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -? 
1???? -?? G48TC??? Present?? PowerOn??? Registered???? Normal???? NA???? 
3???? -?? X2UXC??? Present?? PowerOn??? Registered???? Normal???? NA???? 
6???? -?? G48TC??? Present?? PowerOn??? Registered???? Normal???? NA???? 
7???? -?? SRUA???? Present?? PowerOn??? Registered???? Normal???? Master 
8???? -?? -??????? Present?? PowerOn??? Unregistered?? -??????? ??Slave? 
PWR1? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA???? 
PWR3? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA???? 
CMU1? -?? CMUA???? Present?? PowerOn??? Registered???? Normal???? Master 
FAN1? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA???? 
FAN2? -?? -??????? Present?? PowerOn??? Registered???? Normal???? NA???

设备8号槽位的主控板显示未注册。

??????????????????????????????? 步骤 2???? 使用过display reset-reason命令,查看单板的复位信息。

<HUAWEI> display reset-reason 
The LPU board[1] has no reset records. 
The LPU board[2] has no reset records. 
The LPU board[3] has no reset records. 
The LPU board[4] has no reset records. 
The LPU board[5] has no reset records. 
The LPU board[6] has no reset records. 
The SRU board[7] has no reset records. 
The SRU board[8]'s reset total 19883, detailed information: 
--? 1. 2014/01/26?? 16:23:55, Reset No.: 19883 
?????? Reason: Warm reset board for no receiving message in a long time 
--? 2. 2014/01/26?? 16:13:55, Reset No.: 19882 
?????? Reason: Cold reset board for no receiving message in a long time 
--? 3. 2014/01/26?? 16:03:55, Reset No.: 19881 
?????? Reason: Warm reset board for no receiving message in a long time 
--? 4. 2014/01/26?? 15:53:55, Reset No.: 19880 
?????? Reason: Cold reset board for no receiving message in a long time 
--? 5. 2014/01/26?? 15:43:55, Reset No.: 19879 
?????? Reason: Warm reset board for no receiving message in a long time

复位信息为Cold reset board for no receiving message in a long time,原因是新安装的备用主控板与主用主控板之间无法通信导致的复位。

??????????????????????????????? 步骤 3???? 因为之前该槽位单板使用正常,怀疑为新安装的主控板故障,更换另一块同型号主控板验证。

??????????????????????????????? 步骤 4???? 使用另一块主控板可以正常注册,判断为原备用主控板的通道存在故障。

----结束

处理建议

更换主控板,联系技术支持人员将故障主控板返修。

4.3.3 业务板与备用主控板一起复位

现象描述

S9300测试业务突然中断,经查看日志后发现备用主控板和业务板复位导致。

Dec8 2013 13:14:10 NewCallcenter-SW-2 %%01ALML/4/ENTRESET(l)[778]: LPU frame[1] board[1] is reset. The reason is: Warm reset board for no register in a long time
Dec8 2013 13:14:10 NewCallcenter-SW-2 %%01ALML/4/PUBLISH_EVENT(l)[779]: Publish event. (Slot=1, Event ID=BOARD_RESET). 
Dec8 2013 13:14:14 NewCallcenter-SW-2 ENTMIB/4/TRAP:OID 1.3.6.1.2.1.47.2.0.1 Entity MIB change. 
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01ALML/4/ENTRESET(l)[780]: MPU frame[1] board[5] is reset.? 
The reason is: Warm reset board for no receiving message in a long time
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01ALML/4/PUBLISH_EVENT(l)[781]: Publish event. (Slot=5, Event ID=BOARD_RESET). 
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01VFS/5/UNREGDEV_OK(l)[782]:Succeeded in unregistering the file system on device 5. 
Dec8 2013 13:25:10 NewCallcenter-SW-2 %%01OSPF/6/RECV_SMB_DOWN_RM(l)[783]:OSPF backup receives slave mainboard Down event from RM. (SlaveHsbState=0) 
Dec8 2013 13:25:14 NewCallcenter-SW-2 ENTMIB/4/TRAP:OID 1.3.6.1.2.1.47.2.0.1 Entity MIB change.

原因分析

??????????????????????????????? 步骤 1???? 使用display device命令查看设备信息。

<HUAWEI> display device 
S9303's Device status: 
Slot? Sub Type???????? Online??? Power????? Register?????? Alarm????? Primary 
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - 
1???? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? NA???? 
?
4???? -?? LE0MMCUA???? Present?? PowerOn? ??Registered???? Normal???? Master 
?
5???? -?? -??????????? Present?? PowerOn??? Unregistered?? -????????? Slave? 
?
PWR1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
PWR2? -?? -??????????? Present?? PowerOn??? Registered??? ?Normal???? NA???? 
?
FAN1? -?? -??????????? Present?? PowerOn??? Registered???? Normal???? NA???

设备5号槽位的备用主控板和1号槽位的业务板均显示为未注册。

??????????????????????????????? 步骤 2???? 通过复位日志可看出复位原因是与主控板间通信异常,建议现场进行插拔验证。

??????????????????????????????? 步骤 3???? 反复插拔1号槽位的业务板、更换安装槽位后仍无法注册。

??????????????????????????????? 步骤 4???? 观察了业务板的连接器,并无倒针、生锈等情况。

??????????????????????????????? 步骤 5???? 保留1号槽位的业务板和5号槽位的备用主控板,拔出4号槽位的主用主控板,业务板和备用主控板均可以正常注册。初步判断为原主用主控板或4号槽位故障。

??????????????????????????????? 步骤 6???? 将原主用主控板和备用主控板互换槽位后,4号槽位单板可以注册,原主用主控板安装到5号槽位后无法注册,排除4号槽位的问题,判断为原主用主控板故障。

----结束

处理建议

更换主控板,联系技术支持人员将故障主控板返修。

总结经验

如果备用主控板和所有业务板都与主用主控板之间存在通信异常,可以初步判断为主用主控板本身或所在的槽位存在故障,建议使用交叉验证来排除。

4.3.4 Auto-booting关闭导致备用主控板反复复位

问现象描述

交换机备用主控板反复复位。

原因分析

??????????????????????????????? 步骤 1???? 使用命令display reset-reason检查单板复位原因,发现为备用主控板和主用主控板无法通信,主用主控板主动复位备用主控板。

??????????????????????????????? 步骤 2???? 在无法正常启动的主控板上连接串口,并收集打印信息:

**************************************************** 
*????????????????????????????????????????????????? * 
*????????? S9300 Bootload, Ver 102????????????? ???* 
*????????????????????????????????????????????????? * 
**************************************************** 
?
Copyright(C) 2003-2009 by HUAWEI TECHNOLOGIES CO., LTD. 
Creation date: Sep 10 2009, 13:52:56 
?
PCB Version???? : LE02SRUA VER.B 
CPU L2 Cache??? : 128KB 
CPU Clock Speed : 700MHz 
BUS Clock Speed : 133MHz 
Memory Type???? : DDR2 SDRAM 
Memory Size???? : 1024MB 
Memory Speed??? : 667MHz 
?
CF Card Init...............................................................???????????????????????????? ???????????????????????????????????????????????????????cfcard:/? - Volume is OK 
Done 
?
Auto-booting is disabled
Password:

打印信息中含有"Auto-booting is disabled!",并且停留在提示输入密码阶段。原因是主控板的Auto-booting选项被关闭,导致备用主控板不会主动启动文件系统中的系统软件,停留在bootload阶段,所以无法与主用主控板建立通信。主用主控板只能感知到备用主控在位,但没有通信,因此主动将备用主控板复位,并反复重复这一过程。

----结束

处理建议

??????????????????????????????? 步骤 1???? 由于当前启动停留在输入密码阶段,所以首先需要输入BootLoad菜单的密码进入BootLoad菜单。

??????????????????????????????? 步骤 2???? 进入BootLoad菜单后,使用组合键Ctrl+Z进入隐藏菜单。

??????????????????????????????? 步骤 3???? 选择Enable auto-booting with default mode选项。

??????????????????????????????? 步骤 4???? 退出隐藏菜单后重启备用主控板即可。

----结束

4.3.5 主控板反复复位,且存在电源告警

现象描述

S9306的7号槽位备用主控板反复复位且存在电源告警。

原因分析

??????????????????????????????? 步骤 1???? 使用display device命令查看设备信息。

<HUAWEI> display device 
S9306's Device status: 
Slot? Sub Type? Online??? Power????? Register?????? Alarm????? Primary 
?
- - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - - -? 
?
1???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
2???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
3???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
4???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
5???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
6???? -?? LPU?? Present?? PowerOn??? Registered???? Normal???? NA???? 
?
7???? -?? SRU?? Present?? PowerOn??? Unregistered?? -????????? Slave? 
?
8???? -?? SRU?? Present?? PowerOn??? Registered???? Normal???? Master

设备7号槽位的主控板未注册。

??????????????????????????????? 步骤 2???? 使用过display alarm all命令,查看单板存在电源告警。

<HUAWEI> display alarm all 
Level????????? Date??????? Time??????????????? Info?????? 
Warning????? 2013-10-31? 21:18:27??? The "1.2V_VDD" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
?
Warning????? 2013-10-31? 21:18:27??? The "2.5V" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
?
Warning????? 2013-10-31? 21:18:27??? The "1.8V" voltage sensor of SRU board[7](entity) exceed lower minor limit.

??????????????????????????????? 步骤 3???? 查看设备的日志信息中也存在单板内部电源告警。

Oct 31 2013 20:56:41 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:39 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:37 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:35 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:33 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:32 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:30 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALMA/4/VOLT_LOWER(l): The "1.2V_VDD" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/VOLT_LOWER(l): The "1.2V_VDD" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
(SensorNum=5, Value=0.01, UpperThreshold=1.44, LowerThreshold=0.96) 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALMA/4/VOLT_LOWER(l): The "2.5V" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/VOLT_LOWER(l): The "2.5V" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
(SensorNum=10, Value=0.86, UpperThreshold=3.00, LowerThreshold=2.00) 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALMA/4/VOLT_LOWER(l): The "1.8V" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/VOLT_LOWER(l): The "1.8V" voltage sensor of SRU board[7](entity) exceed lower minor limit. 
(SensorNum=9, Value=0.01, UpperThreshold=2.16, LowerThreshold=1.44) 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/PUBLISH_EVENT(l): Publish event. (Slot=7,Eventid=BOARD_RESET) 
Oct 31 2013 20:56:27 KeFuZuoXi-S9306-1 %%01ALML/4/ENTRESET(l): SRU board[7] is reset, The reason is: Cold reset board for CPU is not active. 
Oct 31 2013 20:56:26 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset. 
Oct 31 2013 20:56:24 KeFuZuoXi-S9306-1 %%01ALML/3/CPU_RESET(l): The canbus node of SRU board[7] detects that CPU was reset.

可以判断是单板的内部电源存在故障。

----结束

处理建议

更换主控板,联系技术支持人员将故障主控板返修。

总结经验

posted @ 2021-08-04 20:28  精舞门2020  阅读(2772)  评论(0编辑  收藏  举报