SQL Server聚集索引的选择

先声明文章非原创，摘自博客园：http://www.cnblogs.com/CareySon/archive/2012/03/06/2381582.html

简介

在SQL Server中，数据是按页进行存放的。而为表加上聚集索引后，SQL Server对于数据的查找就是按照聚集索引的列作为关键字进行了。因此对于聚集索引的选择对性能的影响就变的十分重要了。本文旨在从性能角度来谈聚集索引的选择，但这仅仅是从性能方面考虑。对于有特殊业务要求的表，则需要按实际情况进行选择。

一、聚集索引所在列或列的组合最好是唯一的

这个原因需要从数据的存放原理来谈。在SQL Server中，数据的存放方式并不是以行（Row）为单位，而是以页为单位。因此，在查找数据时，SQL Server查找的最小单位实际上是页。也就是说即使你只查找一行很小的数据，SQL Server也会将整个页查找出来，放在缓冲池中。

每一个页的大小是8K。每个页都会有一个对于SQL Server来说的物理地址。这个地址的写法就是文件号：页号（理解文件号需要你对文件和文件组有所理解）。比如第一个文件的第50页。则页号为：1:50。当表没有聚集索引时，表中的数据页是以堆（Heap）进行存放的，在页的基础上，SQL Server通过一个额外的行号来确定每一行，这也是传说中的RID。RID是文件号：页号：行号来进行表示的，假设这一行在起前面所说的页中的第5行，则RID表示为1:50:5，如图1所示：

从RID的概念来看，RID不仅仅是SQL Server唯一确定每一行的数据，也是存放行的存放位置。当页通过堆（Heap）进行组织时，页很少进行移动。

而当表上建立索引时，表中的页按照B树进行组织。此时，SQL Server寻找行不再是按RID进行查找，转而使用了关键字，也就是聚集索引的列作为关键字进行查找。假设图1的表中，我们设置DepartmentID列作为聚集索引列。则B树的非叶子节点的行中只包含了DepartmentID和指向下一层结点的书签（BookMark）。

而当我们创建的聚集索引的值不唯一时，SQL Server则无法仅仅通过聚集索引列（也就是关键字）唯一确定一行。此时，为了实现对每一行的唯一区分，则需要SQL Server为相同值的聚集索引生成一个额外的标示信息进行区分，这也是所谓的uniquifiers。而使用了uniquifier后，对性能产生的影响分为如下部分：

1、SQL Server必须在插入或者更新时对现在的数据进行判读是否和现有的键重复，如果重复，则需要生成uniqifier,这个是一笔额外开销。

2、因为需要对相同值的键添加额外的uniquifier来区分，因此键的大小被额外的增加了。因此无论是叶子节点和非叶子节点，都需要更多的页进行存储。从而还影响到非聚集索引，使得非聚集索引的书签列变大，从而使得非聚集索引也需要进行更多的页进行存储。

下面我们进行测试，创建一个测试表，创建聚集索引。插入10W条测试，其中每2条一重复，如图2所示。

--创建测试表
create table [dbo].[TestP]
(
   [id] int,
   [Name] varchar(100)
)
go

--在id上创建聚集索引
create clustered index testp_cindex on TestP(id)
go
--插入10W条数据测试，每2条一重复
begin tran
declare  @index int
set @index=0
while(@index<100000)
begin 
  insert into dbo.TestP(id,Name)values(@index,'测试数据')
  insert into dbo.TestP(id,Name)values(@index,'测试数据')
set @index=@index+1
end
commit

exec sp_spaceused 'TestP'