索引的存储结构
下面是本人画的一张关于数据页和索引存储结构图
此图中,最上部分是数据页的存储结构。
下半部分是表中有索引,这里就出现了B-Tree结构,索引的根级会引用索引的下一级,直到索引的最后一级,这一级引用的对象是RID(当表中不存在聚集索引时,RID会指向每一行数据存储位置,RID的字段长度为16字节)或聚集索引列(当表存在索引时,聚集索引指向每一行数据存储位置)。
如果一个表每行存储200个字符,那么一个8Kb页面最多存储8060/200=40行数据。如果索引的字段是20个字节,表中聚集索引字段为16个字节或者没有聚集索引,那么索引行的长度为20+16=36个字节,每一个8Kb索引页存储索引的行数为8060/20=223行,也就是说:当数据小于223行时,索引只需要1个8Kb页面,而数据则需要223/40=6个8Kb页面。当数据大于223行时,索引页会分页,分成两个索引页,此时,会出现更高一级的索引节点,该节点引用它的下一级节点。此时,索引有2级,根级和子页级。根级保存的是对子页级的引用,此时,保存的数据最多为223*223行,如果数据继续增加,那么根级会再次分页并变成第一子页级,同时生成新的根级,也就是上面图的结果,这个时候索引有3级,存储的最大数据为223*223*223。
当需要查询一行数据所有的列时,查询分析器只需要扫描4次就可以找数据。
注意:
1、 当表存在聚集索引时,并且只需要查询聚集索引键值,而查询条件使用到索引时,那么查询一次只需要扫描3次则可以找到数据,因为不需要扫描数据页级。如果查询的是整行,则需要扫描4次,多出来的一次是扫描数据页。
2、 当表不存在聚集索引时,查询某列(非索引列)或整行数据时,查询一次需要扫描4次才能找到数据,因为需要扫描数据页。
如果没有索引时,查找某一行数据,就需要逐行逐行的扫描,所以就会出现全表扫描或聚集索引扫描的情况。
上面的列子中,一个8kb数据页最多只能存储40行数据,而一个索引页最多可以存储223行数据,这里可以看出来索引的一个作用,缩小扫描的次数,用来提升性能。这就是以空间换取性能的结果。