SCN(System Chang Number)作为oracle中的一个重要机制,在数据恢复、Data Guard、Streams复制、RAC节点间的同步等各个功能中起着重要作用。理解SCN的运作机制,可以帮助你更加深入地了解上述功能。
在理解SCN之前,我们先看下oracle事务中的数据变化是如何写入数据文件的:
1、事务开始;
2、在buffer cache中找到需要的数据块,如果没有找到,则从数据文件中载入buffer cache中;
3、事务修改buffer cache的数据块,该数据被标识为“脏数据”,并被写入log buffer中;
4、事务提交,LGWR进程将log buffer中的“脏数据”写入redo log file中;
5、当发生checkpoint,CKPT进程更新所有数据文件的文件头中的信息,DBWn进程则负责将Buffer Cache中的脏数据写入到数据文件中。
经过上述5 个步骤,事务中的数据变化最终被写入到数据文件中。但是,一旦在上述中间环节时,数据库意外宕机了,在重新启动时如何知道哪些数据已经写入数据文件、哪些 没有写呢(同样,在DG、streams中也存在类似疑问:redo log中哪些是上一次同步已经复制过的数据、哪些没有)?SCN机制就能比较完善的解决上述问题。
SCN是一个数字,确切的说是一个只会增加、不会减少的数字。正是它这种只会增加的特性确保了Oracle知道哪些应该被恢复、哪些应该被复制。
总共有4 中SCN:系统检查点(System Checkpoint)SCN、数据文件检查点(Datafile Checkpoint)SCN、结束SCN(Stop SCN)、开始SCN(Start SCN)。其中其面3中SCN存在于控制文件中,最后一种则存在于数据文件的文件头中。
在控制文件中,System Checkpoint SCN是针对整个数据库全局的,因而之存在一个,而Datafile Checkpoint SCN和Stop SCN是针对每个数据文件的,因而一个数据文件就对应在控制文件中存在一份Datafile Checkpoint SCN和Stop SCN。在数据库正常运行期间,Stop SCN(通过视图v$datafile的字段last_change#可以查询)是一个无穷大的数字或者说是NULL。
在一个事务提交后(上述第四个步骤),会在redo log中存在一条redo记录,同时,系统为其提供一个最新的SCN(通过函数 dbms_flashback.get_system_change_number可以知道当前的最新SCN),记录在该条记录中。如果该条记录是在 redo log被清空(日志满做切换时或发生checkpoint时,所有变化日志已经被写入数据文件中),则其SCN被记录为redo log的low SCN。以后在日志再次被清空前写入的redo记录中SCN则成为Next SCN。
当日志切换或发生checkpoint(上 述第五个步骤)时,从Low SCN到Next SCN之间的所有redo记录的数据就被DBWn进程写入数据文件中,而CKPT进程则将所有数据文件(无论redo log中的数据是否影响到该数据文件)的文件头上记录的Start SCN(通过视图v$datafile_header的字段checkpoint_change#可以查询)更新为Next SCN,同时将控制文件中的System Checkpoint SCN(通过视图v$database的字段checkpoint_change#可以查询)、每个数据文件对应的Datafile Checkpoint(通过视图v$datafile的字段checkpoint_change#可以查询)也更新为Next SCN。但是,如果该数据文件所在的表空间被设置为read-only时,数据文件的Start SCN和控制文件中Datafile Checkpoint SCN都不会被更新。
那系统是如何产生一个最新的SCN 的?实际上,这个数字是由当时的timestamp转换过来的。每当需要产生一个最新的SCN到redo记录时,系统获取当时的timestamp,将其 转换为数字作为SCN。我们可以通过函数SCN_TO_TIMESTAMP(10g以后)将其转换回timestamp:
SQL> select dbms_flashback.get_system_change_number, SCN_TO_TIMESTAMP(dbms_flashback.get_system_change_number) from dual;
GET_SYSTEM_CHANGE_NUMBER
------------------------
SCN_TO_TIMESTAMP(DBMS_FLASHBACK.GET_SYSTEM_CHANGE_NUMBER)
---------------------------------------------------------------------------
2877076756
17-AUG-07 02.15.26.000000000 PM
也可以用函数timestamp_to_scn将一个timestamp转换为SCN:
SQL> select timestamp_to_scn(SYSTIMESTAMP) as scn from dual;
SCN
----------
2877078439
最后,SCN除了作为反映事务数据变化并保持同步外,它还起到系统的“心跳”作用——每隔3秒左右系统会刷新一次系统SCN。
下面,在简单介绍一下SCN如何在数据库恢复中起作用。
数据库在正常关闭(shutdown immediate/normal)时,会先做一次checkpoint,将log file中的数据写入数据文件中,将控制文件、数据文件中的SCN(包括控制文件中的Stop SCN)都更新为最新的SCN。
数据库异常/意外关闭不会或者只更新部分Stop SCN。
当数据库启动时,Oracle 先检查控制文件中的每个Datafile Checkpoint SCN和数据文件中的Start SCN是否相同,再检查每个Datafile Checkpoint SCN和Stop SCN是否相同。如果发现有不同,就从Redo Log中找到丢失的SCN,重新写入数据文件中进行恢复。具体的数据恢复过程这里就不再赘述。
SCN作为Oracle中的一个重要机制,在多个重要功能中起着“控制器”的作用。了解SCN的产生和实现方式,帮助DBA理解和处理恢复、DG、Streams复制的问题。
最后提一句,利用SCN机制,在Oracle10g、11g中又增加了一些很实用的功能——数据库闪回、数据库负载重现等。
1、系统检查点scn
当一个检查点动作完成后,Oracle就把系统检查点的SCN存储到控制文件中。
select checkpoint_change# from v$database;
2,数据文件检查点scn
当一个检查点动作完成后,Oracle就把每个数据文件的scn单独存放在控制文件中。
select name,checkpoint_change# from v$datafile;
3,启动scn
Oracle把这个检查点的scn存储在每个数据文件的文件头中,这个值称为启动scn,因为它用于在数据库实例启动时,
检查是否需要执行数据库恢复。
select name,checkpoint_change# from v$datafile_header
4、终止scn
每个数据文件的终止scn都存储在控制文件中。
select name,last_change# from v$datafile
1)、使用备份控制文件
2)、重建resetlogs控制文件,如果重建立noresetlogs不必要使用using backup controlfile
2、alter database open resetlog
指定RESETLOGS将重设当前LOG sequence number为1,抛弃所有日志信息。
以下条件需要使用resetlog
1)在不完全恢复(介质恢复)
2)使用备份控制文件
使用resetlogs打开数据库后无必完整地备份一次数据库。
3、create controlfile resetlogs/noresetlogs
1).用Noresetlogs重建控制文件时,控制文件中 datafile Checkpoint来自Online logs中的Current log头
2).用Resetlogs重建控制文件时,控制文件中datafile Checkpoint来自各数据文件头。
resetlogs抛弃所有在上一次恢复没有用到的日志信息,确保不被重新用与恢复。
1、系统正常关闭:
system scn=datafile scn=start scn=stop scn
1)system scn=datafile scn=start scn,不需要介质恢复
2)stopscn not null,不需要实例恢复
2、系统异常关闭:
system scn=datafile scn=start scn,stop scn null
1)system scn=datafile scn=start scn,不需要介质恢复
2)stopscn null,需要实例恢复
3、旧数据文件
system scn=datafile scn>start scn,stop scn null/notnull
1)system scn=datafile scn>start scn,需要介质恢复成system scn=datafile scn=start scn
2)stopscn null,需要实例恢复,not null 不需要实例恢复
4、备份控制文件
system scn=datafile scn<=start scn(当数据文件为旧的相等),stop scn notnull/null
1)system scn=datafile scn<=start scn,需要使用using backup controlfile介质恢复成system scn=datafile scn=start scn=current log scn(当前日志最大SCN)
2)为保证上一次恢复没有用到log日志不被使用,必须resetlogs
5、重建noresetlogs控制文件
控制文件中 datafile Checkpoint来自Online logs中的Current log头
current log scn=system scn=datafile scn>=start scn,stop scn not null/null
1)current log scn=system scn=datafile scn>=start scn,需要介质恢复成system scn=datafile scn=start scn=redolog scn(当前日志最大SCN),stop scn not null
2)stopscn not null 不需要实例恢复
6、重建resetlogs控制文件
控制文件中datafile Checkpoint来自各数据文件头。
system scn>=datafile scn=start scn,stop scn not null/null
1)system scn>=datafile scn=start scn,需要使用using backup controlfile介质恢复成system scn=datafile scn=start scn(当前日志最大SCN),stop scn not null
2)stop notnull,因为SCN已经为redolog scn,log已经不能使用,必须resetlogs
目录
1、SCN的介绍
2、SCN的工作机制
3、SCN的增加
4、其他的SCN
5测试
6小结
7问题
1、SCN的介绍
Oracle中的SCN有下面几种:
1)系统检查点scn(v$database(checkpoint_change#))
当一个检查点动作完成之后,Oracle就把系统检查点的SCN存储到控制文件中
select checkpoint_change# from v$database;
2)数据文件检查点scn (v$datafile(checkpoint_change#))
当一个检查点动作完成之后,Oracle就把每个数据文件的scn单独存放在控制文件中
select name,checkpoint_change# from v$datafile;
3)数据文件终止scn (v$datafile(last_change#))
每个数据文件的终止scn都存储在控制文件中。在正常的数据库操作过程中,所有正处于联机读写模式下的数据文件的终止scn都为null,异常关闭后的Stop SCN,也为NULL.
select name,last_change# from v$datafile;
4)数据文件启动scn (v$datafile_header(checkpoint_change#)
Oracle把这个检查点的scn存储在每个数据文件的文件头中,这个值称为启动scn,因为它用于在数据库实例启动时,检查是否需要执行数据库恢复
select name,checkpoint_change# from v$datafile_header;
2、SCN的工作机制
1)在数据库打开并运行之后,控制文件中的系统检查点scn、控制文件中的数据文件检查点scn和每个数据文件头中的启动scn都是相同的
2 )控制文件中的每个数据文件的终止scn都为null
3) NORMAL或IMMEDIATE关闭数据库的过程中,系统会执行一个检查点动作,这时所有数据文件的终止scn都会设置成数据文件头中的那个启动scn的值。
4)在数据库重新启动的时,Oracle将执行两次检查
◆看数据文件头中的ckpt计数器(v$datafile_header.checkpoint_count)是否与对应控制文件中的ckpt计数器(v$datafile.)一致。若相等,进行第二次检查
◆比较文件头中的启动scn和对应控制文件中的终止scn进行比较,如果终止scn等于启动scn,则不需要对那个文件进行恢复
5)数据库打开之后,存储在控制文件中的数据文件终止scn的值再次被更改为null,这表示数据文件已经打开并能够正常使用了
注:当ABORT强制关闭数据库时不进行检查点处理,所以终止scn仍然为无穷大。在下次启动期间,发现启动scn和终止scn不同,需要进行线程恢复。
3、SCN的增加
1) SCN(System Change Number)只要数据库被修改,就会+1,而不是一定要进行checkpoint,例如DML的发生即使没有提交也会使SCN+1.(哪些情况下SCN会发生变化?)
注:SCN增加并不代表会在数据文件头中表现出来,而是需要等到checkpoint执行后才写入(当然可能已经增加了很多)
2)如果一个DML导致产生事务,则会产生一个SCN。这个意思是说如果一个事务包含多个dml,则只有第一个初始产生事务的dml产生scn,提交的时候又是一个scn,如果一个事务只有一个dml,那看起来就是dml产生一个scn,提交或者回滚产生一个scn。
3) Oracle10g内部的SCN会默认不管有没有动作,每隔3s自动增加一次。其他需要增加的情况则再加。
4)只有ckpt进程才会修改文件头中的checkpoint计数器和SCN,DBWR只会修改数据块,即ckpt通知dbwr写数据文件,写完之后ckpt更新控制文件和数据文件头。此时若DBWR发现数据块的log block还没有被写入日志文件,则在dbwr写块之前通知lgwr把log buffer中的日志写入log文件。
注:总结一下,日志切换必定触发ckpt,但ckpt不一定会触发lgwr,但是一定会触发dbwr
4、其他的SCN
1)日志文件头中包含了Low scn、Next scn,表示所给日志文件包含有从Low scn到Next scn的redo record. (如何查看? REDO SCN)
注:当系统运行时,日志文件的Next scn同样为无穷大。而且需要注意:在恢复时定位到底使用哪个日志文件的时候,并不是用数据文件中的low scn去框,也不是只要在日志文件的low scn and next scn之间就利用该日志文件。而是在数据文件头中有RBA的记录,RBA包含了日志序号Sequence#、block number、slot number。 这样可以直接定位到日志文件(归档日志文件)和具体的位置。
在确定了哪个数据文件必须redo后,oracle会比较change vector(向量)中的SCN和数据文件数据块中的SCN,如果change vector的SCN小于数据块的scn,则跳过此change vector,否则应用redo.
2)数据块中的SCN
data block里面的SCN是当block被更改的时候的SCN,而数据文件有那么多block,自然不同的block有不同的SCN,block中存在block SCN和ITL中的commit SCN。block SCN又在块头和块位都有,若不一致意味着block损坏。而ITL中的commit SCN则跟consistent gets and delay block cleanout有关。(Block SCN如何查看?)
3) v$database中的checkpoint_change#和dbms_flashback.get_system_change_number不同。前者是作为数据库的最后一次checkpoint是的SCN,而后者是系统的最新SCN,所以一般后者都会比前者大,而当刚做完checkpoint时候两者会差不多。(Checkpoint的触发机制?)
4)当begin backup命令发出后,相关数据文件的checkpoint scn被冻结(以及状态标志被改变),其他一切照旧。例如:日志切换时checkpoint count正常递增/检查点照常写文件,自然文件中的数据块内的各种scn也照常递增。
5测试:
A.正常关闭,mount数据库
SQL> col system_scn format 999999999999999999
SQL> col datafile_scn format 999999999999999999
SQL> col start_scn format 999999999999999999
SQL> col stop_scn format 999999999999999999
SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn, scn, re rownum=1) c;
b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,'null',b.last_change#) stop_scnp_scn
from v$database a,
(select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,
(select checkpoint_change# from v$datafile_header where rownum=1) c;
SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN
------------------- ------------------- ------------------- ----------------------------------------
2696048203982 2696048203982 2696048203982 2696048203982
上述查询结果表明:
结束SCN都是跟启动SCN是一样的,这样,当数据库open的时候就可以不用recover了。
把数据库打开open
SQL> alter database open;
Database altered.
SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn,
2 b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,'null',b.last_change#) stop_scn
3 from v$database a,
4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,
5 (select checkpoint_change# from v$datafile_header where rownum=1) c;
SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN
------------------- ------------------- ------------------- ----------------------------------------
2696048203983 2696048203983 2696048203983 null
系统检查点scn增加了1。
控制文件中的数据文件检查点scn和数据文件的文件头中的启动scn也都各自增加了1。
控制文件中的数据文件终止scn,变为NULL.
C.对系统触发检查点
SQL> alter system checkpoint;
System altered.
SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn,
2 b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,'null',b.last_change#) stop_scn
3 from v$database a,
4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,
5 (select checkpoint_change# from v$datafile_header where rownum=1) c;
SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN
------------------- ------------------- ------------------- ----------------------------------------
2696048204212 2696048204212 2696048204212 null
系统检查点scn发生变化,增加不止1,这与检查点产生机制有关。
D异常关闭启动!没有将Start SCN同步给Stop SCN,造成不一致.需要Instance Recovery
SQL> shutdown abort
SQL> startup mount
Database mounted.
SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn,
2 b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,'null',b.last_change#) stop_scn
3 from v$database a,
4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,
5 (select checkpoint_change# from v$datafile_header where rownum=1) c;
SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN
------------------- ------------------- ------------------- ----------------------------------------
2696048204212 2696048204212 2696048204212 null
按理说在数据文件启动之前End SCN的值不应为NULL,但这里查出却为NULL ,之前的理解是有误的,在Shutdown Abort后, Stop SCN仍为NULL. (异常关闭后的Start Mount,在打开之前要做Instance Recovery)
SQL> alter database open;
Database altered.
Vi alert.log
alter database open
Mon Feb 1 14:27:05 2010
Beginning crash recovery of 1 threads
Mon Feb 1 14:27:05 2010
Started first pass scan
Mon Feb 1 14:27:05 2010
Completed first pass scan
61 redo blocks read, 30datablocks need recovery
Mon Feb 1 14:27:05 2010
Started recovery at
Thread 1: logseq 71, block 7466, scn 0.0
Recovery of Online Redo Log: Thread 1 Group 1 Seq 71 Reading mem 0
Mem# 0 errs 0: /opt/oracle/oradata/mydb/redo01.log
Mon Feb 1 14:27:05 2010
Completed redo application
Mon Feb 1 14:27:05 2010
Ended recovery at
Thread 1: logseq 71, block 7527, scn 627.3103729640
30 data blocks read, 30 data blocks written, 61 redo blocks read
Crash recovery completed successfully
完成在线日志应用
SQL> select a.checkpoint_change# system_scn, c.checkpoint_change# start_scn, scn,
b.checkpoint_change# datafile_scn, decode(b.last_change#,NULL,'null',b.last_change#) stop_scnp_scn
3 from v$database a,
4 (select checkpoint_change#, last_change# from v$datafile where rownum =1 ) b,
5 (select checkpoint_change# from v$datafile_header where rownum=1) c;
SYSTEM_SCN START_SCN DATAFILE_SCN STOP_SCN
------------------- ------------------- ------------------- ----------------------------------------
2696048224234 2696048224234 2696048224234 null
6小结
1、系统正常关闭:
1)system checkpoint scn = datafile checkpoint scn = start scn,不需要介质恢复
2)stop scn is not null = start SCN,不需要实例恢复
2、系统异常关闭:
1)system checkpoint scn = datafile checkpoint scn = start scn,不需要介质恢复
2)stop scn is null,需要实例恢复
3、旧数据文件
会使得:system checkpoint scn = datafile checkpoint scn > start scn,stop scn is null/ is not null
1)system checkpoint scn = datafile checkpoint scn > start scn
需要介质恢复成system checkpoint scn = datafile checkpoint scn = start scn
2)stop scn is null,需要实例恢复,is not null不需要实例恢复
4、备份控制文件
会使得:system checkpoint scn = datafile checkpoint scn <= start scn(当数据文件为旧且和旧控制文件为同一版本的时候相等,如果数据文件是当前的数据文件则是小于),stop scn notnull/null
1)system checkpoint scn = datafile checkpoint scn <= start scn,需要使用using backup controlfile介质恢复成system scn = datafile scn = start scn = current log scn(当前日志最大SCN)
2)为保证上一次恢复没有用到log日志不被使用,必须在恢复完成后用resetlogs打开数据库
5、以noresetlogs方式重建控制文件
在以这种方式重建控制文件时,控制文件中的datafile checkpoint scn来自于Online logs中的Current log头,因此
current log scn = system checkpoint scn = datafile scn >= start scn(如果数据文件为备份而来则会大于start SCN,如果是当前的则为相等于start SCN), stop scn not null/null
1)current log scn = system checkpoint scn = datafile checkpoint scn >= start scn,因此需要介质恢复成system checkpoint scn = datafile scn = start scn = redolog scn(当前日志最大SCN)
2)stopscn is not null不需要实例恢复
6、以resetlogs方式重建控制文件
控制文件中datafile checkpoint scn来自各数据文件头(start scn),而且system checkpoint scn会归为0
system checkpoint scn < datafile checkpoint scn = start scn,stop scn not null/null
1)system checkpoint scn < datafile checkpoint scn = start scn,需要使用using backup controlfile介质恢复成system checkpoint scn = datafile checkpoint scn = start scn(当前日志最大SCN),stop scn not null
2) stopscn is not null不需要实例恢复,而且因为SCN已经为redolog scn,log已经不能使用,必须用resetlogs方式打开数据库
7问题:
7.1数据库启动过程的两个比较.
v$datafile_header.checkpoint_count VS 对应控制文件中的ckpt计数器(v$datafile.)在哪个视图?
7.2 哪些情况下SCN会发生变化?这几个SCN如何变化?
7.3 如何查看REDO SCN?
7.4 Block SCN如何查看?
7.5 Checkpoint的触发机制?
下面这些操作将会触发checkpoint事件:
1) 日志切换,通过ALTER SYSTEM SWITCH LOGFILE。(之前的资料说这里,发出的应是增量检查点 ?是的,日志切换只能产生增量检查点)
2) DBA发出checkpoint命令,通过ALTER SYSTEM checkpoint。
3) 对数据文件进行热备时,针对该数据文件的checkpoint也会进行,ALTER TABLESPACE TS_NAME BEGIN BACKUP/END BACKUP。
4) 当运行ALTER TABLESPACE/DATAFILE READ ONLY的时候。
5) SHUTDOWN命令发出时。
人生有三宝:终身运动,终身学习,终身反醒.吸收新知,提高效率,懂得相处,成就自己,也成就他人,创造最高价值。