笔记18-徐 SQLSERVER常见错误解读

笔记18-徐 SQLSERVER常见错误解读

f

--SQLSERVER常见错误解读

--829错误:这个错误表明SQL Server在读取数据库文件时,发现了逻辑一致性错误,即数据页的页面ID不正确。
--表示数据库页的一致性检查失败,可能是由于硬件故障或磁盘上的物理损坏导致的。
--SQL Server detected a logical consistency-based I/O error: incorrect pageid (expected xxx; actual xxx). It occurred during a read of page (xxx:xxx) in database ID xx at offset xxx in file 'xxx.mdf'.  Additional messages in the SQL Server error log or system event log may provide more detail. This is a severe error condition that threatens database integrity and must be corrected immediately. Complete a full database consistency check (DBCC CHECKDB). This error can be caused by many factors; for more information, see SQL Server Books Online.



--823错误
--823错误是发出一个页面读写请求时发生的,和读写的内容没有关系
---,所以823错误和SQL本身没有关系。通常是物理数据文件损坏或者
--硬件出现问题。

--修复方法:DBCC CHECKDB很难修复


--824错误 原因基本是I/O子系统的问题,可以负责任地说SQL自己绝少会导致824错误的
--此错误表明Windows已经从磁盘成功读取页,但SQLSERVER检测到页中存在逻辑错误
--常见逻辑错误:

--1、checksum:
--SQL在写入每个页面时,根据页面里的数据算出一个校验值,一同存储到页面里。当下次读取页面的时候,
--在根据这次读到的页面数据,算出一个新的校验值。如果写入和读出的数据一模一样,那么两个校验值一
--定是相等的。而如果两个校验值不相等,意味着上次SQL写入的数据和这次读出的一定不同,现在读出来
--的数据有问题。通过校验值SQL能发现数据页面损坏,这个功能是SQL2005以后引入的

--2、torn page
--SQL2000引入的残缺页(torn page)保护,是一种对电源故障导致的页损坏进行检测的方法。
--页的每个512B扇区末尾会放置一个2位签名(在这之前会把原来的2位复制到页头之后)每次
--进行写操作时,这个签名在二进制01和10之间交替。这样始终可以确定是否只有部分扇区写到
--磁盘。如果稍后读取页时发现某个位的状态不正确,则说明该页没有被正确写入。
--如果页面没有被正确写入,因此检测到问题页面,称为残缺页。相对于checksum,残缺页使用
--的资源最少,但是它的算法太简单,无法检测到磁盘硬件故障导致的所有错误
--不知道01 还是10 是指明那个扇区被正确写入

--3、short transfer
--读到的数据长度比预期的少。例如,一个读取要求预期可以读到8KB的数据,可是实际只返回了
--4KB。这意味着当前读到的页面有损坏

--4、bad page id
--在读到页面后,SQL会比较页面开头存储的页面编号和自己请求的目标编号。如果发现自己
--想要读取的页面是第200页,而读到的内容里显示它是第100页,SQL就会触发824错误。
--这种错误经常是因为I/O子系统没有正确处理SQL的请求,传给SQL一个错误的页面,甚至
--是一个空页面

--5、restore pending
--在SQL2005以后的企业版里,用户可以要求在做还原的时候跳过一些有损坏的页面(continue after error)
--延迟的错误。这些跳过的页面被标识成“restore pending”.如果用户想去访问它,也会遇到824错误


--6、stale read
--由于硬件系统发生漏写的现象,checksum和torn page算法都不能检测到错误。
--可以打开SQL启动参数开关 /T818 以后,SQL会在内存维护一张哈希表,记录下自己所有做过的写入
--的动作的页面的LSN值。在下次读出页面的时候去比较这两个值是否相等。由于LSN是自动增长的唯一值,
--每个发生新修改的页面,LSN的值会比原来的要大。所以如果读到的LSN的内存中存放的不一样,就
--说明上次写入的请求没有真正完成。触发824错误
--net start MSSQLSERVER /t818

--修复方法:DBCC CHECKDB能修复,但是只是逻辑修复,会有部分数据丢失



--605错误
--605也是一个非常有名的数据库损坏错误。此错误通常表示指定数据库中的页或分配已经损坏
--SQL会在根据页链接或使用索引分配映射IAM读取属于表的页时,检测到此损坏。分配给表的
--所有页必须属于与该表相关联的分配单元之一。如果页眉中包含的分配单元ID与表相关联的分配
--单元ID不匹配,将引发此异常。。错误消息中列出的第一个分配单元ID是页眉中的ID,第二个分配
--单元ID是表相关联的ID

--严重级别21:可能存在数据损坏,造成原因包括损坏的页链、损坏的IAM或该对象的sys.objects目录视图
--中存在无效条目(即是页面失去了链接)。这些错误通常由硬件或磁盘驱动程序引起

--严重级别12:存在暂时性错误,即在缓存中出现错误,但不表示对磁盘上的数据造成破坏。
--包括:
--(1)操作系统过早地通知SQL已完成某个I/O操作,尽管不存在实际的数据损坏,但显示错误消息
--(2)运行带有优化器提示NOLOCK查询,或将事务隔离级别设置为READ UNCOMMITTED,当使用NOLOCK
--或READ UNCOMMITTED的查询尝试读取被其他用户移走或更改的数据时,将发生605错误。
--若要验证是否是605错误,请稍候重新运行该查询

--修复方法:如果数据访问发生该错误,运行DBCC CHECKDB没有显示错误,那么605错误是暂时的
--605意味着页面分配出现问题,所以也是一个非常严重的数据库损坏。一般用DBCC CHECKDB也很难修复


--以下这些错误都是使用DBCC CHECKDB来修复
--有些不丢数据能修复,有些丢数据能修复,有些丢数据也不能修复

--(1)PFS页面头有损坏
--(2)系统表中的聚集索引页面有损坏
--(3)某个字段的值不符合字段数据类型定义
--(4)元数据有损坏


-----------------------DBCC CHECKDB-------------------------------------------------------------------------
--DBCC CHECKDB完成两项任务
--(1)检查数据库里有没有损坏发生
--(2)尽力修复数据库损坏,使数据能够被正常访问
--所以即使是一个正常运行的数据库,也建议定期运行这句命令,以确保没有损坏发生。
--对于已经发生访问错误的数据库,应该在第一时间运行这句命令,了解损坏范围和程度

--检查指定数据库中所有对象的逻辑和物理完整性
--1、首先检查一些关键的系统表
--2、对数据库运行DBCC CHECKALLOC
--3、对数据库中的每个表和视图运行DBCC CHECKTABLE
--4、对数据库运行DBCC CHECKCATALOG
--5、验证数据库中每个索引视图的内容
--6、验证数据库中的Service Broker数据

--这意味着运行了DBCC CHECKDB,就不必再单独运行DBCC CHECKALLOC、DBCC CHECKTABLE、DBCC CHECKCATALOG
--也意味着单独运行DBCC CHECKALLOC、DBCC CHECKTABLE、DBCC CHECKCATALOG不能完成DBCC CHECKDB的所有功能
--但是至少完成了大部分功能

--1、在检查数据库之前SQL需要去了解这个数据库到底存放了什么样的数据,也就是所谓数据库的“元数据”。没有这些
--信息,SQL无法知道自己将要去访问什么样的表格和怎样解释读到的记录

--SQL2000关键系统表:
--sysindexes
--sysobjects
--syscolumnes

--这些系统表存放的是表格和索引的定义信息,以及表格里每一个字段的数据类型定义
--所以SQL必须要确认这些表完好无损


--SQL2005关键系统表:
--sysallocunits
--syshobts            --hobt:堆或B树
--syshobtcolumnes
--sysrowsets
--sysrowsetcolumns

--SQL2000有3个关键系统表 SQL2005有5个关键系统表
--SQL2005里的关键系统表只有在DAC模式才能看到(但是我测试的时候使用DAC都不能看到关键系统表)
--每一张系统表都有一个聚集索引


--2、DBCC CHECKALLOC
--检查数据库所有页的分配。验证各种内部结构,这些结构可用于跟踪这些页,以及它们之间的关系


--3、DBCC CHECKTABLE
--是否已正确连接索引、行内、LOB以及行溢出数据页
--索引是否按照正确的顺序排列
--各指针是否一致
--每页上的数据是否合理(包括计算列)
--页面偏移量是否合理
--基表的每一行是否在每个非聚集索引中具有匹配的行,以及非聚集索引的每一行是否在基表中具有匹配的行
--已分区的表或索引的每一行是否都位于正确的分区中


--4、DBCC CHECKCATALOG
--检查指定数据库系统表里记录的元数据逻辑一致性。
--在sys.columns视图里,有一个列不属于sys.objects里的任何一个表格或视图
--在外键视图sys.foreign_keys里的一个外键在sys.indexes里找不到对应的索引
--某个对象的父对象不存在。(例如有一个主键对象存在,但是主键所依附的表格不存在了)
--这些错误除非用户自己去直接修改系统表里的数据否则不应该出现!!!!!!!!!!!!!!!!!!!!!!!!!!

--5、验证数据库中每个索引视图的内容
--SQL支持在某些视图上建立索引,以提高视图的性能。在视图中一些经过计算的字段值,SQL会将
--它们存储到索引页面里。下次可以直接使用,而不需要再做计算
--如果视图查询的源数据量非常大,可以跳过这一步,可以使用PHYSICAL_ONLY这个参数

--6、验证数据库中Service Broker数据
--如果SQL使用了Service Broker的功能,SQL还会调用Service Broker的组件,检查相关的系统对象
--Service Broker的queue、pipeline等 是否正常。这部分和传统的表格索引没有直接关系

--如果你的数据库没有说“ 0 allocation errors” 和“0 consistency errors”,而是有若个
--错误,就意味着数据库有损坏,赶紧修吧



------------------------DBCC CHECKDB提供的修复方法--------------------------------------------
--默认DBCC CHECKDB只会验证数据库是否完好,不会主动做修复数据库的动作
--repair_allow_data_loss     修复所有错误,执行修复可能会丢失数据
--repair_rebuild    快速修复以及耗时修复(重建索引、非聚集索引中的额外键),执行修复时不会丢失数据
--repair_fast  未执行任何修复,只是为了向后兼容性

--解决方法:
--1、DBCC CHECKDB(GPOSDB)
--有错误的情况下
--2、单用户模式下
ALTER DATABASE GPOSDB SET SINGLE_USER
DBCC CHECKDB(GPOSDB,REPAIR_REBUILD)

--还是不能修复
--3、单用户模式下 紧急模式下
--应当是最后手段,并只有在无法从备份还原数据库时才采用
--如果DBCC CHECKDB成功,修复操作不会考虑表本身或表之间可能存在的任何约束
--,如果指定的表与一个或多个约束有关,建议在修复操作后运行DBCC CHECKCONSTRAINTS
--建议运行DBCC CHECKDB(GPOSDB,REPAIR_ALLOW_DATA_LOSS)之前备份数据库,因为
--DBCC CHECKDB造成的修改,可能会无法接受,而这个时候也无办法再用备份恢复的方法
--恢复数据库了
--只有万不得已的时候才使用DBCC CHECKDB(GPOSDB,REPAIR_ALLOW_DATA_LOSS)

ALTER DATABASE GPOSDB SET EMERGENCY    --紧急只读模式
ALTER DATABASE GPOSDB SET SINGLE_USER
DBCC CHECKDB(GPOSDB,REPAIR_ALLOW_DATA_LOSS)
USE GPOSDB
DBCC CHECKCONSTRAINTS(systempara)


--还还是不能修复
--1、恢复数据库备份
--2、如果是用户表、视图、存储过程损坏,可以DROP掉试试
--3、使用紧急只读模式,使用导入导出数据或者select into  导出数据ALTER DATABASE GPOSDB SET EMERGENCY
--各个表的状态将会不一致,一般在逻辑上会有很大问题



--安装固件和各种软件的升级补丁
--SQLSERVER2000:SQLSERVER2000 SP4 +hotfix build 2245
--SQLSERVER2005:现在还没有发现导致数据库损坏的bug
--SQLSERVER2008:现在还没有发现导致数据库损坏的bug
--WindowsXP:升级到WindowsXP SP3
--Windows2000:升级到Windows2000 SP4 +hotfix KB838647 +hotfix 905205(scsiport.sys)
--Windows2003:升级到Windows2003 SP2 +hotfix KB940467(storport.sys)
--Windows2008:现在还没有发现会导致数据库损坏的bug

 

 

 

f

posted @ 2013-07-27 15:39  桦仔  阅读(2221)  评论(0编辑  收藏  举报