Oracle重做日志丢失的故障处理
Oracle重做日志
Oracle的重做日志文件(Online redo logfile)循环记录了数据库所有的事务。它的大小、个数和存储位置对数据库性能和恢复有重要影响。它一般由大小相同的几组文件构成。我们可以查看数据库视图v$logfile知道redo logfile的个数和存储位置。对每一个Oracle数据库都要求至少具有两个联机重做日志。
每一次新的事务提交时,Oracle将该事务写入日志文件,但并非此时也将修改的数据块写回原数据文件。由于内存读写和磁盘I/O存在几个数量级的效率差别,Oracle通过减少数据文件的物理I/O读写来大大提高数据库的性能;同时,又通过优先写日志文件来保证数据的正确性和一致性。基于这种机制,重做日志文件在数据库的实例恢复和介质恢复时至关重要,是oracle数据库最重要的物理文件之一。
如果数据库在启动时检测到重做日志丢失,数据库将无法启动。如果数据库在运行时切换日志文件组,检测到下一组或者全部的重做日志丢失,数据库将会崩溃。由于磁盘介质损坏或者人为的误删除文件,造成严重后果的事件近期时有发生。本文列举了重做日志丢失的数据库恢复,但如果按照冗余原则合理分布日志文件组的成员,如果工程师了解日志文件的基本原理和使用原则,就完全可以避免出现下列问题。
恢复方法
故障现象
SQL> startup mount
Oracle Instance Started
Database mounted
ORA-00313: open failed for members of log group 1 of thread 1
ORA-00312: online log 1 thread 1: '/ORACLE/ORADATA/H817/REDO01.LOG'
ORA-27041: unable to open file
OSD-04002: unable to open file
O/S-Error: (OS 2) The system cannot find the file specified.
恢复注意事项
以下所列举的恢复方法,都属于不完全恢复或者强制恢复,会丢失当前重做日志中的事务数据。一旦操作不当,将带来数据丢失等严重后果,请遵循以下几个恢复原则:
1. 请勿在生产系统上试用。
2. 如果生产系统出现重做日志文件丢失的故障,请勿自行操作破坏现场,应该立刻联系Oracle工程师。
3. 恢复成功之后,需要马上做一次数据库的全备份。
4. 建议重做日志文件一定要实现镜象在不同的磁盘上,避免这种情况的发生。
恢复方法
1. 首先检查重做日志文件状态,看看报错的日志文件的状态是否为Current
SQL> select * from v$log;
SQL> select * from v$logfile;
2. 如果重做日志文件状态为Inactive,我们可以直接清除该日志文件的内容:
SQL> alter database clear logfile '/ORACLE/ORADATA/H817/REDO01.LOG';
3. 如果重做日志文件状态为Current,恢复工作较为复杂,有以下四种情况:
1)通过下面步骤,数据库顺利打开
SQL> recover database until cancel;
Type Cancel when prompted
SQL>alter database open resetlogs;
2)第一种情况的'recover database until cancel' 操作遇到ORA-01547,ORA-01194,ORA-01110错误,需要整个数据库的物理备份,并根据归档日志恢复到错误时间点,前提是数据库是归档模式。
restore old backup
SQL> startup mount
SQL> recover database until cancel using backup controlfile;
SQL> alter database open resetlogs;
3)如果数据库是非归档模式,只能恢复整个物理备份,然后直接打开数据库。这种情况将丢失物理备份至故障发生前的全部数据。
4)如果数据库是非归档模式,且没有物理备份,只能通过特殊的隐含参数,允许数据库不一致的状况下打开数据库。这种恢复方法是没有办法之后的恢复方法,将导致数据库不一致,一般情况下不要采用。如确有需要,请在Oracle的技术人员指导下使用该方法。
关闭数据库
SQL>shutdown immediate
在init<sid>.ora中加入如下参数
_allow_resetlogs_corruption=TRUE
重新启动数据库,利用until cancel恢复
SQL>recover database until cancel;
Cancel
打开数据库
SQL>alter database open resetlogs;
数据库被打开后,马上执行一个全库导出。
关闭数据库,在init<sid>.ora中去掉_all_resetlogs_corrupt参数
Oracle的重做日志文件(Online redo logfile)循环记录了数据库所有的事务。它的大小、个数和存储位置对数据库性能和恢复有重要影响。它一般由大小相同的几组文件构成。我们可以查看数据库视图v$logfile知道redo logfile的个数和存储位置。对每一个Oracle数据库都要求至少具有两个联机重做日志。
每一次新的事务提交时,Oracle将该事务写入日志文件,但并非此时也将修改的数据块写回原数据文件。由于内存读写和磁盘I/O存在几个数量级的效率差别,Oracle通过减少数据文件的物理I/O读写来大大提高数据库的性能;同时,又通过优先写日志文件来保证数据的正确性和一致性。基于这种机制,重做日志文件在数据库的实例恢复和介质恢复时至关重要,是oracle数据库最重要的物理文件之一。
如果数据库在启动时检测到重做日志丢失,数据库将无法启动。如果数据库在运行时切换日志文件组,检测到下一组或者全部的重做日志丢失,数据库将会崩溃。由于磁盘介质损坏或者人为的误删除文件,造成严重后果的事件近期时有发生。本文列举了重做日志丢失的数据库恢复,但如果按照冗余原则合理分布日志文件组的成员,如果工程师了解日志文件的基本原理和使用原则,就完全可以避免出现下列问题。
恢复方法
故障现象
SQL> startup mount
Oracle Instance Started
Database mounted
ORA-00313: open failed for members of log group 1 of thread 1
ORA-00312: online log 1 thread 1: '/ORACLE/ORADATA/H817/REDO01.LOG'
ORA-27041: unable to open file
OSD-04002: unable to open file
O/S-Error: (OS 2) The system cannot find the file specified.
恢复注意事项
以下所列举的恢复方法,都属于不完全恢复或者强制恢复,会丢失当前重做日志中的事务数据。一旦操作不当,将带来数据丢失等严重后果,请遵循以下几个恢复原则:
1. 请勿在生产系统上试用。
2. 如果生产系统出现重做日志文件丢失的故障,请勿自行操作破坏现场,应该立刻联系Oracle工程师。
3. 恢复成功之后,需要马上做一次数据库的全备份。
4. 建议重做日志文件一定要实现镜象在不同的磁盘上,避免这种情况的发生。
恢复方法
1. 首先检查重做日志文件状态,看看报错的日志文件的状态是否为Current
SQL> select * from v$log;
SQL> select * from v$logfile;
2. 如果重做日志文件状态为Inactive,我们可以直接清除该日志文件的内容:
SQL> alter database clear logfile '/ORACLE/ORADATA/H817/REDO01.LOG';
3. 如果重做日志文件状态为Current,恢复工作较为复杂,有以下四种情况:
1)通过下面步骤,数据库顺利打开
SQL> recover database until cancel;
Type Cancel when prompted
SQL>alter database open resetlogs;
2)第一种情况的'recover database until cancel' 操作遇到ORA-01547,ORA-01194,ORA-01110错误,需要整个数据库的物理备份,并根据归档日志恢复到错误时间点,前提是数据库是归档模式。
restore old backup
SQL> startup mount
SQL> recover database until cancel using backup controlfile;
SQL> alter database open resetlogs;
3)如果数据库是非归档模式,只能恢复整个物理备份,然后直接打开数据库。这种情况将丢失物理备份至故障发生前的全部数据。
4)如果数据库是非归档模式,且没有物理备份,只能通过特殊的隐含参数,允许数据库不一致的状况下打开数据库。这种恢复方法是没有办法之后的恢复方法,将导致数据库不一致,一般情况下不要采用。如确有需要,请在Oracle的技术人员指导下使用该方法。
关闭数据库
SQL>shutdown immediate
在init<sid>.ora中加入如下参数
_allow_resetlogs_corruption=TRUE
重新启动数据库,利用until cancel恢复
SQL>recover database until cancel;
Cancel
打开数据库
SQL>alter database open resetlogs;
数据库被打开后,马上执行一个全库导出。
关闭数据库,在init<sid>.ora中去掉_all_resetlogs_corrupt参数