Oracle RAC中的一台机器重启以后无法接入集群
前天有个同事说有套AIX RAC的其中一台服务器重启了操作系统以后,集群资源CSSD的资源一直都在START的状态,检查日志输出有如下内容:
[ CSSD][1286]clssnmvDiskVerify: Successful discovery of 0 disks
[ CSSD][1286]clssnmCompleteInitVFDiscovery: Completing initial voting file discovery
[ CSSD][1286]clssnmvFindInitialConfigs: No voting files found
[ CSSD][1286](:CSSNM00070:)clssnmCompleteInitVFDiscovery: Voting file not found. Retrying discovery in 15 seconds
[ CSSD][1029]clssscSelect: cookie accept request 111272110
[ CSSD][1029]clssscevtypSHRCON: getting client with cmproc 111272110
[ CSSD][1029]clssgmRegisterClient: proc(3/111272110), client(56/110a1a770)
从集群的日志信息可以看到,由于一直没有扫描到CRS的相关磁盘信息,最终导致异常产生。
cd /dev
ls -l
发现可以看到相关的rhdiskpower盘
lsdev -Cc disk
发现相关的盘符的状态都在defined状态,该状态标识磁盘之前被认出,但是当前不可用。由此可以判断应该是由于存储方面的原因导致RAC集群相关资源无法读取到OCR盘的内容。
存储工程师处理过程:
1、检查确认物理线路没有任何问题。
2、将在小型机上将相关认出来的盘都删除。 rmdev -Dl
3、将相关的链路都删除掉。 emcpower delete dev=all
4、重新扫描盘符。
5、根据正常的那台机器的Lun编号,调整重新扫描出来的hdiskpowerN的序号。
6、保存配置。powermt save
7、重新检查磁盘状态。lsdev -Cc dev 确保状态为可用。
处理完存储问题后,重启机器,观察集群资源状况。
--------------------------------------------
快乐地度过每一天,踏实、认真地做好每一件事。