代码改变世界

维护工程师必读,故障处理原则及注意事项

2022-04-09 11:42  guesters  阅读(928)  评论(0编辑  收藏  举报

维护工程师必读

1.1 故障处理原则及注意事项
故障处理原则
请遵循以下原则对故障进行分析、定位和处理:
● 以尽快恢复系统为原则。
● 定位故障时,应及时采集故障数据信息,并尽量将采集到的故障数据信息保存在移动存储介质或网络中的其它计算机中。
● 在确定故障处理的方案时,应先评估影响,优先保证业务的正常传送。
● 第三方的硬件故障,可查看第三方的相关资料或拨打第三方公司的服务电话。
● 如果无法定位出故障点或无法按手册解决故障,可联系华为技术支持,并配合华为公司工程师处理故障,最大程度减少业务中断时间。

故障处理注意事项
维护工程师开展故障定位和处理工作前,请仔细阅读并遵循以下事项:
● 发生故障时请先评估是否为紧急故障,是紧急故障请使用预先制定的紧急故障处理方法尽快恢复故障模块,进而恢复业务。
● 严格遵守操作规程和行业安全规程,确保人身安全与设备安全。
● 在故障处理过程中遇到的任何问题,应详细记录各种原始信息,不能随意删除数据或日志。
● 应先分析故障现象,定位原因后再进行处理。在原因不明的情况下应避免盲目操作,导致问题扩大化。
● 在处理故障时,为了确保客户网络的安全和隐私,如果需要采集相关故障日志,请事先得到客户的同意。
● 所有的重大操作,如重启设备、擦除数据库等均应作记录,并在操作前仔细确认操作的可行性,在做好相应的备份、应急和安全措施后,方可由有资格的操作人员执行。
● 更换和维护设备部件过程中,要做好防静电措施,佩戴防静电腕带。

● 在系统恢复后,必须对运行情况进行观察,确认故障已经排除并及时填写相关的处理报告。

 

1.2 故障处理思路
故障处理的流程如图1-1所示,其基本思想是系统地将故障的所有可能原因缩减或隔离成几个小的子集,从而使问题的复杂度迅速下降。故障处理系统化需要遵循按照合理的步骤找出故障原因并解决故障的总体原则。
图1-1 故障处理流程图

故障感知 → 故障信息收集 → 信息分析 → 故障点界定 → 故障恢复

故障的发生可以从用户侧感知(比如,无法上网),也可以从网络侧感知(比如,设备出现异常告警)。感知到故障后,需要第一时间收集各设备的故障信息,然后对故障信息进行分析,定界故障点后进行恢复处理。对于方案级的整网故障处理,关键是根据故障现象快速将故障发生点定界到部件,然后再进行恢复处理。

 

1.3 信息收集
在联系技术支持之前,请首先收集故障相关信息,主要包括:

● 发生故障的时间、故障点的网络拓扑结构、导致故障的操作、故障现象、故障后已采取的措施和结果、故障影响的业务范围等信息。

● 发生故障的设备的名称、版本、当前配置、接口信息等,具体方法请参考3.1.4 一键信息采集(必须采集项)和3.4.1.3 常用display命令。

● 发生故障时产生的日志信息,具体方法请参考3.1.5 获取日志信息(必须采集项)。

 故障基本信息收集

出现故障时,首先需要采集的故障基本信息如下表所示。
● 故障时间记录发生故障的时间,精确到分钟。
● 故障现象收集故障现象并详细记录。
● 故障影响记录故障的严重程度和影响的业务范围。
●组网信息画出组网图。主要包括上下行设备、对接接口等。
● 已采取的措施记录发生故障后已采取的措施和结果(包括完整的配置过程和输出信息)。

信息采集注意事项
● 信息采集请依据当地法律法规实施。
● 凡是标注必须采集项的条目表示本次信息采集必须要采集的内容,集中在前面几个采集条目。
● 除必须采集项,其他根据具体问题选择相应项进行采集。收集故障现象及网络拓扑图(必须收集项)

● 清楚明确地记录故障现象,必须包含AC和AP的设备型号、软件版本等信息。

● 记录故障发生的具体时间,以便采集相应时间段的日志。
● 搞清楚组网图和网络中的设备是怎么互连的,提供网络拓扑图。

一键信息采集(必须采集项)
通过display diagnostic-information命令可以获取设备的诊断信息,它集合了多条常用display命令的输出结果,是一键采集的好方法。
设备提供了display diagnostic-information [ file-name ]命令,该命令可以将设备目前运行的诊断信息输出到屏幕或txt文件。包含启动配置、当前配置、接口信息、时间、系统版本等大量有用信息。该命令使用方法如下:
<AC6605> display diagnostic-information dia-info.txt
This operation will take several minutes, please wait........................................................................................……
Info: The diagnostic information was saved to the device successfully.
缺省保存路径为系统默认存储设备的根目录(flash:/或sdcard:/),用户视图下使用dir命令可以确认文件是否正确生成。在设备发生故障后,将诊断信息文件提交给代理商或华为技术有限公司,有助于尽快完成故障的定位和解决。将诊断信息文件从设备上传输到终端(PC)上的方法请参见使用FTP/TFTP传输文件。
说明
● 此命令执行时间较长,如果采用直接在终端的显示方式,可以通过按Ctrl+C停止。
● 因为诊断信息命令输出内容较多,可能会出现系统CPU占用率短时间升高的情况。

 

1.4 获取日志信息(必须采集项)
当设备出现故障时,收集设备日志信息,有助于用户了解设备运行过程中发生的情况,定位故障点。
日志信息主要记录用户操作、系统故障、系统安全等信息,包括用户日志和诊断日志。用户可通过如下方式获取用户日志和诊断日志信息:
<AC> save logfile
<AC> system-view
[AC] diagnose
[AC-diagnose] save diag-logfile
[AC-diagnose] return
<AC> cd logfile/
<AC> dir
Directory of flash:/logfile/

执行完上述命令后,用户日志和诊断日志会分别以log.log和log.dblg的格式保存在日志目录下(logfile),将logfile/下的日志文件按照时间段通过FTP/TFTP传输到终端(PC)上,传输方法请参见3.3.5 使用FTP/TFTP传输文件。
说明
● 本例以AC为例,AP上获取日志的方式和AC一样。
● 日志是按照时间顺序进行保存的,日志格式为日期.时间.log或日期.时间.dblg,获取日志文件后,可以重点分析发生故障时间之前及之后的几个日志文件,方便定位问题。
● V200R008C10及之后版本,只需执行save logfile命令即可导出用户日志和诊断日志。对于支持蓝牙串口的AP,还可以通过CloudCampus APP来导出日志信息,具体步骤如下:
1. 通过蓝牙串口登录AP后,开启Log Recording功能来保存操作日志。

收集基本信息(AC/AP 通用)
● 查询接口相关状态
<AC> display interface brief
● 查询设备MAC表项
<AC> display mac-address
● 查询设备ARP表项
<AC> display arp all
● 查询CP-CAR配置及丢弃计数
<AC> display cpu-defend configuration wired
<AC> display cpu-defend configuration wireless
<AC> display cpu-defend statistics wired
<AC> display cpu-defend statistics wireless

收集其他信息