AIX系统的日常监控维护
UNIX操作系统在各电信运营商中应用非常广泛,各种业务管理系统的后台服务器几乎都采用UNIX操作系统。AIX作为UNIX操作系统中的一种, 因其稳定性高、兼容性好的特点受到众多系统管理员的欢迎。
下面提供几个方法,供大家共享,旨在提高维护的目的性、针对性及维护效率,降低故障发生率,从日常维护管理上做到“有的放矢”,“万无一失”。
1、 使用df –k命令检查文件系统是否满
用root用户登陆AIX后,在命令提示符“#”后输入:df –k.,表示以k为单位检查文件系统的使用率。如果占用率(%Iused)超过90%,则需要进行空间调整。
2、 使用errpt |more命令查看系统出错日志
在命令提示符“#” 后输入:errpt |more,表示以分页的形式显示系统出错日志(包括硬件与软件的出错信息)。根据显示的信息判断系统硬件及软件的运行情况。输入:errclear 0命令,清除现有的系统日志。
3、使用last命令检查系统登陆情况
在命令提示符“#” 后输入:last,显示各个login用户(如:root等)登陆的信息。如果发现有异常的登陆用户或者登陆IP,则进行相应安全性的检查及处理。
4、 使用find / -name core –print命令检查是否有巨大的core文件生成
在命令提示符“#” 后输入:find / -name core –print,表示从系统根目录开始查找所有名为core的文件(巨大的core文件容易造成系统崩溃)。如果存在,一般直接删除即可。
5、 使用vmstat命令检查CPU及内存运行情况
在命令提示符“#” 后输入:vmstat 5,表示每隔5秒钟显示系统CPU及内存运行情况。查看kthr(kernel运行队列中处于等待状态的进程数)字段的r(运行队列中的进程数)项的显示 值,如果该数值是系统实际CPU数的4倍或4倍以上,则表示CPU占用率过高,需要考虑提高系统CPU工作频率;查看memory(虚拟和真实内存的使用 信息)字段的fre(空闲页面的数量)项,如果数值低于120,则说明系统内存短缺。有时候数值虽然高于120,也可以根据实际情况调整内存;查看 page(页面活动的信息)字段的pi(从页面输入的页)、po(输出到页面的页)、fr(空闲的页面数)及sr(通过页面置换算法搜索到的页面数)项的 值,这4个值一般都为0,有时候也有可能为1;最后查看cpu(cpu的使用率)字段的us(用户进程的时间)及sy(系统进程的时间)项的值,两项值的 和应该不超过90%,否则说明CPU能力短缺。
6、 使用lsps –a命令检查交换内存空间使用情况
在命令提示符“#”后输入:lsps -a,查询交换内存空间使用情况。如果%used字段低于70%,则系统运行正常。
7、 使用mail –u root命令检查系统发送给root用户的mail错误报告
在命令提示符“#” 后输入:mail –u root,显示系统发送给root用户的mail错误报告。查看是否有硬件或软件方面的错误信息报告,并做相应处理。
8、 使用diag命令检查系统硬件运行情况
每个月用diag命令检查一下系统硬件的运行情况,及时发现硬件可能出现的故障。
综上所述,作为AIX系统管理员,在日常维护工作中要做好预测工作,对系统进行及时监控,将可能发生的系统故障扼杀在萌芽阶段。