翻译 1-(Pro SQL Server Internals )----------( Data Pages and Data Rows )
文章来源:《Pro SQL Server Internals 》
原文作者简介:
Dmitri Korotkevitch是Microsoft Data Platform MVP和Microsoft Certified Master (SQL Server 2008),他拥有20多年的IT经验,包括作为应用程序和数据库开发人员、数据库管理员和数据库架构师与Microsoft SQL Server一起工作的经验。Dmitri专门从事设计、开发和性能优化复杂OLTP系统,该系统每秒处理数千个事务。Dmitri经常在各Microsoft和SQL PASS活动上发言,他还为世界各地的客户提供SQL Server培训。他经常在http://aboutsqlserver.com上写博客,很少像twitter那样发推文@aboutsqlserver,可以通过dk@aboutsqlserver.com联系到。
数据页和数据行
数据库中的空间被划分为逻辑8KB页面。这些页面从开始就连续编号,它们可以通过指定文件ID和页码来引用。页码是始终是连续的,这样当SQL Server增长数据库文件时,新页面就会开始编号,从文件的最高页码加1。类似地,当SQL Server收缩文件时,它将删除文件中页数最多的页面。
数据存储在SQL SERVER中
一般来说,SQL Server存储和有三种不同的方式或技术处理数据库中的数据。使用传统的基于行存储,数据存储在数据行中,将来自所有列的数据组合在一起。
SQL Server 2012引入了columnstore索引和基于列的存储。这种技术商店每个列的数据,而不是每行的数据。的第7部分将介绍基于列的存储这本书。
最后,SQL Server 2014中引入并进一步改进了内存内技术在SQL Server 2016中。即使它们为了冗余目的将数据保存在磁盘上,它们的存储也是如此格式与基于行和列的存都有很大的不同。我们将讨论内存本书第八部分中的技术。
本书的这一部分主要讨论基于行的存储和经典的b树索引和堆。
图1-6显示数据页的结构:
注:Page Header 96 Bytes:页眉98字节
Data Rows: 数据行
Free Space: 自由空间
Slot Array: 槽阵列
图1 - 6:数据页结构
96字节的页标头包含关于页的各种信息,例如其中的对象页面所属,页面上可用的行数和空闲空间数量,链接到前一个如果页面在索引页链中,则是下一页,依此类推。
页眉后面是实际数据存储的区域。然后是自由空间。最后,有一个slot数组,它是一个由两个字节条目组成的块,指示对应数据所在的偏移量行从页面开始。
slot数组表示页面上数据行的逻辑顺序。如果页面上的数据需要按照索引键的顺序排序,SQL Server不会对页面上的数据行进行物理排序,而是它根据索引排序顺序填充槽数组。插槽0(图中最右边?)1-6)存储偏移量页面上键值最低的数据行;槽1,第二低的键值;等等。我们在下一章将更深入地讨论索引。
SQL Server提供了一组丰富的系统数据类型,这些数据类型在逻辑上可以分为两种不同的类型组:固定长度组和可变长度组。固定长度的数据类型,如int、datetime、char等,不管它们的值是多少,总是使用相同数量的存储空间,即使它是空的。例如,int列总是使用4字节,而nchar(10)列总是使用20字节存储信息。
相比之下,可变长度的数据类型,如varchar、varbinary和其他一些类型,使用的数据量也一样多存储数据所需的存储空间,外加两个额外字节。例如,一个nvarchar(4000)列,将只使用12字节来存储一个5个字符的字符串,在大多数情况下,两个字节来存储一个空值。我们将在后面讨论变长列不为NULL值使用存储空间的情况这一章。
让我们看看数据行的结构,如图所示:1 - 7
第1章:数据存储内部
注:status Bits:状态
fdate a length: fdate长度
fixed length data:固定长度的数据
Number of columns:列数 Ncol:列数
Null bit map: 0比特
Number of variable length columns:变长列数
columns offset array:列抵消数组
variable length data:可变长度的数据
Timestamp and version store pointer: 时间戳和版本存储指针
when variable length data is present: 当存在可变长度数据时 when row version is used: 使用行版本时
图1 - 7:数据行结构
行的前两个字节,称为状态位A和状态位B,是包含信息的位图关于行,例如行类型,如果该行在逻辑上被删除(重影),并且该行为NULL值、可变长度列和版本控制标记。
行中接下来的两个字节用于存储数据的固定长度部分的长度。他们后面是固定长度的数据本身。
在固定长度的数据部分之后,有一个null位图,它包含两个不同的数据元素。第一个双字节元素是行中的列数。第二个是空位图数组。这个数组对表的每一列使用一位,不管它是否为空。
空位图总是出现在堆表或聚集索引叶行的数据行中,即使在表没有可空列。但是,空位图不存在于非叶索引行中,也不存在于当索引中没有可空列时,非聚集索引的叶级行。
在null位图之后,是行中可变长度的数据部分。它从一个2字节开始行中可变长度的列数,然后是列偏移量数组。SQL Server存储一个2 ?行中每个可变长度列的字节偏移值,即使该值为NULL。其次数据的实际可变长度部分。最后,最后还有一个可选的14字节版本控制标记的行。此标记用于需要行版本控制的操作,例如在线索引重建,乐观隔离级别、触发器等。
■ 注意,我们将在第6章讨论索引维护,在第9章讨论触发器,在第21章讨论乐观隔离级别。
让我们创建一个表,用一些数据填充它,并查看实际的行数据。代码显示在清单1 - 4。复制函数将第一个参数提供的字符重复10次。
清单1 - 4。数据行格式:表创建
创建表dbo.DataRows
(
ID int not null,
Col1 varchar(255) null,
Col2 varchar(255) null,
Col3 varchar(255) null
);
insert into dbo.DataRows(ID, Col1, Col3) values (1,replicate('a',10),replicate('c',10));
insert into dbo.DataRows(ID, Col2) values (2,replicate('b',10));
dbcc ind
(
'SQLServerInternals' /*Database Name*/
,'dbo.DataRows' /*Table Name*/
,-1 /*Display information for all pages of all indexes*/
);
一个未文档化但众所周知的DBCC IND命令返回关于表页的信息配置。您可以在图中看到这个命令的输出吗:1 - 8。
图1 - 8:DBCC印第安纳输出
有两页是属于这个表的。第一个PageType=10,是一种特殊类型的页面,称为IAM分配映射。这个页面跟踪属于特定对象的页面。现在不要专注于此,因为我们将在本章后面讨论分配映射页面。
■ 注意SQL Server 2012引入了另一个非法数据管理功能(DMF) sys.dm_db_database_page_assignments,它可以用作DBCC IND命令的替代。的输出与DBCC IND相比,该DMF提供了更多信息,并且可以与其他系统dmv连接和/或编目视图。
PageType=1的页面是包含数据行的实际数据页。PageFID和PagePID列显示页面的实际文件和页码。您可以使用另一个无文档记录的命令DBCC页检查其内容,如清单1-5所示。
清单1 - 5:数据行格式:DBCC页调用
———将DBCC页面输出重定向到控制台
dbcc traceon(3604);
dbcc page
(
'SqlServerInternals' /*Database Name*/
,1 /*File ID*/
,214643 /*Page ID*/
,3 /*Output mode: 3 - display page header and row details */
);
清单1-6显示了对应于第一行数据的DBCC页面的输出。SQL Server的商店按字节交换顺序的数据。例如,两个字节的值0001将存储为0100。
清单1 - 6:第一行的DBCC页面输出
Slot 0 Offset 0x60 Length 39
Record Type = PRIMARY_RECORD Record Attributes = NULL_BITMAP VARIABLE_COLUMNS
Record Size = 39
Memory Dump @0x000000000EABA060
0000000000000000: 30000800 01000000 04000403 001d001d 00270061 0................'.a
0000000000000014: 61616161 61616161 61636363 63636363 636363 aaaaaaaaacccccccccc
Slot 0 Column 1 Offset 0x4 Length 4 Length (physical) 4
ID = 1
Slot 0 Column 2 Offset 0x13 Length 10 Length (physical) 10
Col1 = aaaaaaaaaa
Slot 0 Column 3 Offset 0x0 Length 0 Length (physical) 0
Col2 = [NULL]
Slot 0 Column 4 Offset 0x1d Length 10 Length (physical) 10
Col3 = cccccccccc
让我们更详细地查看数据行,如图所示:1 - 9。
注: state Bits:状态
fixed length data:固定长度的数据
Null bit map: 0比特
offset where col data ends: col数据结束时的偏移量
offset to find number of columns:偏移量查找列数
number of columns:列数
number of variable length columns:可变长度列的数目
图1 - 9:第一个数据行
如您所看到的,行以两个状态位开始,然后是两个字节的值0800。这是字节交换值0008,这是行中列数属性的偏移量。这个偏移量告诉SQL Server行中固定长度数据部分的结束位置。
接下来的4个字节用于存储固定长度的数据,在我们的示例中是ID列。在那之后,有一个双字节值显示数据行有四列,然后是一个单字节NULL位图。如果只有四列,位图中的一个字节就足够了。它存储了04的值,即00000100二进制格式。它表示行中的第三列包含空值。
接下来的两个字节存储行中可变长度列的数量,即3(0300字节?)交换顺序)。它后面是一个偏移量数组,每两个字节存储一个偏移量,变量在哪里?长度列数据结束。如您所见,即使Col2为NULL,它仍然使用偏移数组中的插槽。最后,还有来自可变长度列的实际数据。
现在,让我们看看第二个数据行。清单1-7显示了DBCC页面输出,图1 - 10显示行数据。
注:state Bits:状态
fixed length data:固定长度的数据
Null bit map: 0比特
offset where col data ends: col数据结束时的偏移量
offset to find number of columns:偏移量查找列数
number of columns:列数
number of variable length columns:可变长度列的数目
图1 - 10:第二数据行数据
清单1 - 7:DBCC页输出为第二行
Slot 1 Offset 0x87 Length 27
Record Type = PRIMARY_RECORD Record Attributes = NULL_BITMAP VARIABLE_COLUMNS
Record Size = 27
Memory Dump @0x000000000EABA087
0000000000000000: 30000800 02000000 04000a02 0011001b 00626262 0................bbb
0000000000000014: 62626262 626262 bbbbbbb
Slot 1 Column 1 Offset 0x4 Length 4 Length (physical) 4
ID = 2
Slot 1 Column 2 Offset 0x0 Length 0 Length (physical) 0
Col1 = [NULL]
Slot 1 Column 3 Offset 0x11 Length 10 Length (physical) 10
Col2 = bbbbbbbbbb
Slot 1 Column 4 Offset 0x0 Length 0 Length (physical) 0
Col3 = [NULL]
第二行中的NULL位图表示二进制值00001010,表示Col1和Col3是NULL。即使表有三个变长列,变长列的数目行中的列表示偏移量数组中只有两列/槽。SQL Server没有维护行中尾随的空变长列的信息。
■提示可以减少数据行通过创建表的大小的方式变长通常存储null值的列被定义为CREATE TABLE语句中的最后一个列。这是CREATE TABLE语句中列的顺序惟一重要的况。
固定长度的数据和内部属性必须符合8060字节上可用单一数据页。如果不是这样,SQL Server不允许您创建表。例如,清单1-8中的代码
产生一个错误。
清单1 - 8:创建数据行大小超过8060字节的表
创建表dbo.BadTable
(
Col1 char(4000),
Col2 char(4060)
)
Msg 1701, Level 16, State 1, Line 1
Creating or altering table 'BadTable' failed because the minimum row size would be 8,067,
including 7 bytes of internal overhead. This exceeds the maximum allowable table row size of
8,060 bytes.
大对象存储
即使固定长度的数据和行的内部属性必须适合于单个页面,SQL Server也是如此可将变长数据存储在不同的数据页上。有两种不同的方法来存储数据,取决于数据类型和长度。
Row-Overflow存储
SQL Server在被调用的特殊页面上存储长度不超过8000字节的可变列数据row-overflow页面。让我们创建一个表,并用清单1-9所示的数据填充它。
清单1 - 9:行溢出数据:创建表
创建表dbo.RowOverflow
(
ID int not null,
Col1 varchar(8000) null,
Col2 varchar(8000) null
);
insert into dbo.RowOverflow(ID, Col1, Col2) values
(1,replicate('a',8000),replicate('b',8000));
如您所见,SQL Server创建表并插入数据行,没有任何错误,即使数据行大小超过8060字节。让我们使用DBCC IND命令查看表页面分配。的结果如图所示:1 - 11。
图1 - 11:行溢出数据:DBCC IND结果