SQL Server 索引知识-结构,实现
索引的作用毋庸置疑,但他是如何组织,并实现提高语句访问效率的呢?本篇文章为大家做个详细的介绍.
聚集索引架构 B-tree
如图1-1
a.B-tree的结构,叶子节点为数据.数据按照聚集索引键有序排列.
b.每个表只能有一个聚集索引.
c.创建时如果未声明Unique,索引字段有重复值会内部添加唯一标识符(4字节)额外维护
非聚集索引架构 B-tree
如图1-2
a 索引树为B-tree,叶子节点包含索引行内容,并包含指向数据页的书签.当表为堆表时书签为RID(文件号,页号,槽号),用以指向具体数据页进行书签查找.当表为聚集表时书签为聚集索引键,用以指向具体数据页进行键查找.
b 非聚集索引上限个数为999(sql2008)(sql2005为249个)
c 非聚集索引中包含聚集索引键.在包含性列中显示添加不会额外增加存储.
d 如果表为聚集表,则书签为聚集索引,为什么不是RID?
因为聚集表一旦有变动,RID将不再准确,如果根据RID则需额外维护,增加额外成本.
e 查询谓词中有聚集索引时,应显示添加聚集索引未非聚集包含性列
包含性列(include columns)
堆表(heap)
堆表结构.非聚集索引表.数据页由IAM页管理.数据页中每个IAM位图指向一个区.如含有多个IAM页(多数据文件,>4GB),IAM页之间相连
B-tree 索引键值value查找
类似B-tree 索引范围查找(range seek)
a.获取根节点
b.遍历行为查询下边界值找下一层指针
c.继续匹配寻找下一层指针
d.如果没有到达叶子节点,继续b步骤
e.叶子层获取索引行匹配数据(值大于等于下边界值)
f.当到达上边界值时退出.
g.如果页中查找到索引行底部,根据指针获得其他页然后执行e
B-tree 区域扫描(range scan)
注:图示例为升序扫描,降序扫描为先找到last page,再根据指针链找previous page
B-tree 区域扫描预读(readahead)
注:索引碎片会阻止预读.影响range scan 效率.
特殊类型B-tree扫描-(unordered range scan)
a.方式与堆扫描相同.
b.只有当读未提交隔离级别(read uncommitted)或table Lock时才会采用.
堆扫描(heap scan/table scan)
方式1
a.获取第一个IAM页
b.获取相应的extents
c.跟据IAM指针链获取下一个IAM页
d.重复b
方式2
a.获取第一个IAM页
b.根据IAM链表获取所有IAM页
c.获取所有的extents
索引碎片(Internal Fragmentation)
内部碎片:页中数据非连续存储.(数据行记录之间存在未使用空间)
造成原因:insert,update造成的页分裂.
Delete随机删除造成的未使用空间
来自混合区的初始分配页
大字节的数据行
外部碎片(External Fragmentation)
分为逻辑碎片(Logical Fragmentation),区碎片(Extent Fragmentation)
数据页/区逻辑上排序,但与在数据文件中(磁盘中)物理上的顺序非匹配.
逻辑碎片造成原因:insert,update造成的页分裂
大量删除造成的页从页链中被删除,造成页链不连续.
区碎片造成原因:随机删除造成的区内的某些页不再使用,但table中已经分配
范围删除造成整个区被回收造成区之间的缝隙.
不同的表/索引数据在区之间交错.