aix errpt输出详解
errpt命令
用more或者其他文本的查看命令来打开errlog文件我们看到的只是一对乱码,为了能够查看错误日志文件需要使用aix的errpt命令。
使用errpt命令查看日志,可能根据使用的参数来确定输出什么样的日志,甚至排序的方式,这是使用纯文本的日志不能做到的,或者说不能轻易做到的。
下面我们来看errpt命令的使用。
eg. errpt | more #|为管道命令
# errpt
IDENTIFIER TIMESTAMP T C RESOURCE_NAME DESCRIPTION
9DBCFDEE 0109034400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0109034300 T O errdemon ERROR LOGGING TURNED OFF
C092AFE4 0109033500 I O ctcasd ctcasd Daemon Started
A6DF45AA 0109033500 I O RMCdaemon The daemon is started.
9DBCFDEE 0109033400 T O errdemon ERROR LOGGING TURNED ON
192AC071 0106130900 T O errdemon ERROR LOGGING TURNED OFF
369D049B 0106082400 I O SYSPFS UNABLE TO ALLOCATE SPACE IN FILE SYSTE
这里的输出分为六列依次为:
1.错误标示符IDENTIFIER:并不唯一,由它来确定使用的错误模板,显然同一种错误的IDENTIFIER是相同的。
2.时间戳TIMESTAMP:错误发生的时间,MMDDhhmmYY,依次表示月日时分年。
3.类型TYPE:错误的类型,或者说严重的程度。
分为6个:
PEND 设备或功能组件可能丢失 简写P
PERF 性能严重下降 P
PERM 硬件设备或软件模块损坏,确诊了的 P
TEMP 临时性错误,经过重试后已经恢复正常 T
INFO 一般消息,不是错误 I
UNKN 不能确定错误的严重性 U
4.种类CLASS c:指出错误源
H 硬件或介质故障
S 软件故障
O 人为错误
U 不能确定
5. 资源名RESOURCE_NAME
最初检测到错误的资源名软件或者硬件,并不代表这个资源有问题,而只是最先在它发现的。
errpt -a 报告可能包含下列信息:
LABEL 事件的预定义名称
IDENTIFIER 事件的数字标识符
Date/Time 事件的日期和时间
Sequence Number 事件的唯一编号
Machine ID 系统处理器部件的标识号
Node ID 系统的缩写名(助记名)
Class 错误的一般原因。可能的错误类型有:
H 硬件
S 软件
O 指示性信息
U 未确定的
Type 发生的错误的严重性。可能有如下错误类型:
PEND 一个设备或部件将很快丧失其可用性
PERF 设备或部件的性能已降级至可接受的水平以下
PERM 不可能恢复的状况。此类错误通常是最严重的错误,并可能意味着硬件设备或软件模块损坏。
除 PERM 之外的错误类型通常不代表一个故障,但可通过诊断程序进行分析。
TEMP 多次不成功的尝试之后,被恢复的状况。此错误类型也用来记录指示性的信息条目,如 DASD 设备的数据传输统计。
UNKN 不能确定错误的严重性
INFO 指示性的错误日志条目,和不是错误的结果
Resource Name 发现错误的资源名称。对于软件错误,这是一个软件部件、或一个可执行程序的名称。对于硬件错误,这是一个设备、
或系统部件的名称。这不表示部件故障、或需要替换。相反,可用来确定用来分析错误的适当诊断模块。
Resource Class 发现故障的资源通用类。(如,disk 设备类)
Resource Type 发现故障的资源类型
Location Code 设备的路径。可能有多达四个字段,分别涉及 drawer(抽屉)、slot(插槽)、connector(连接器)、port(端口)。
VPD 关键产品数据(Vital product data)。该字段的内容是多种多样的。设备的错误日志条目比较典型地,
返回关于设备厂商、序列号、工程变动级别、只读存储器级别等方面的信息。
Description 错误的摘要
Probable Cause 列出一些可能导致错误的原因
User Causes 列出一些用户误操作导致故障的可能原因。
不正确地插入的磁盘和外部设备(如 modems 和 prints)不能被开启,就是用户导致错误的例子。
Actions 描述校正用户导致的错误的推荐操作
Install Causes 列出由于不正确的安装或配置过程而导致故障的可能性原因。
此类错误的例子包含:硬件和软件不匹配、电缆或线缆连接不正确而松动、不正确地配置系统。
Actions 描述校正安装导致错误的推荐操作
Failure Causes 列出硬件、或软件可能的缺陷/故障(defect)
Actions 描述校正故障的推荐操作。对于硬件错误,会运行诊断程序。
Detailed Data 对于每一个错误日志条目都是唯一的故障数据,如设备 sense 数据。
比如:
# errpt -aj 4B219AEA|more
---------------------------------------------------------------------------
LABEL: LVM_GS_CHILDGONE
IDENTIFIER: 4B219AEA
Date/Time: Wed Dec 5 18:12:31 BEIST 2007
Sequence Number: 1917
Machine Id: 00028057D600
Node Id: localhost
Class: U
Type: PERM
Resource Name: LIBLVM
Resource Class: NONE
Resource Type: NONE
Location:
VPD:
Description
Concurrent LVM daemon forced Volume Group offline
Probable Causes
Unrecoverable event detected by Concurrent LVM daemon
Failure Causes
Lost communication with remote nodes
Lost quorum
Recommended Actions
Ensure Cluster daemons are running
CHECK ERROR LOG FOR ADDITIONAL RELATED ENTRIES
Attempt to bring the Concurrent Volume Group back online
IF PROBLEM PERSISTS, CONTACT APPROPRIATE SERVICE REPRESENTATIVE
Detail Data
Volume Group ID
0001 CCCD 0000 D600 0000 0114 16BE 3BDC
MAJOR/MINOR DEVICE NUMBER
0000 0000
SENSE DATA
0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000 0000
Duplicates
Number of duplicates
1
Time of first duplicate
Wed Dec 5 08:48:00 BEIST 2007
Time of last duplicate
Wed Dec 5 08:48:17 BEIST 2007