第14/24周直方图和密度向量

欢迎回到性能调优培训。今天我想详细谈下统计信息在SQL Server内部是如何呈现的。假设有这样的问题：执行计划里的某个运算符的估计行数是42，但你知道对于这个查询，42不是正确的答案。但是你怎么来解读统计信息来理解这个估计是从哪里来的？我们来谈论下直方图（Histogram）和密度向量（Density Vector）。

直方图（Histogram）

首先我们来看下直方图。直方图的用途是用高效、压缩的方式存储列数据分布情况。每次当你在表上创建索引时（聚集/非聚集索引），SQL Server会为你自动创建统计信息。这个统计信息就包含了那列（索引键）的数据分布信息。比如你有一个订单表，里面有个Country列，这列里有很多国家名字。因此直方图就是对这些国家个数分布情况的可视化：

在直方图里，我们用很多柱条描述数据分布情况：柱条越高，那列的这个值就记录数就越多。SQL Server使用同样的概念和格式来描述数据分布情况。我们通过一个例子来详细了解下。在AdventureWorks2008R2数据库里，我们找到表SalesOrderDetail里的ProductID列。这ProductID列存储着具体的销售产品ID信息。可以看到，ProductID列也有索引定义，那就说有对应的统计信息来描述ProductID列的数据分布情况。

在SSMS里，你通过查看表属性来查看列和统计信息，也可以使用DBCC SHOW_STATISTICS命令在结果里输出统计信息。

1  -- Show the statistics for a given index
2 DBCC SHOW_STATISTICS ('Sales.SalesOrderDetail', IX_SalesOrderDetail_ProductID)
3 GO

从上图可以看到，这个命令返回3个不同的记录集：

数据显示标题
密度向量
直方图

如果你想详细了解这部分的统计信息是如何用来做基数预估的，可以看下统计信息内幕：直方图和密度向量。

密度向量（Density Vector）

我们再来看看神秘的密度向量，看下非聚集索引IX_SalesOrderDetail_ProductID，这个索引只在ProductID列建立。但是每个非聚集索引，SQL Server在索引的页层也保存聚集键作为逻辑指针。当你定义了非唯一的非聚集索引，聚集键也是非聚集索引导航结构的一部分。表里的聚集键SalesOrderID是个组合列，包含SalesOrderID列和SalesOrderDetailID列。

这就是说我们的非唯一非聚集索引事实上包含ProductID，SalesOrderID和SalesOrderDetailID列。索引键是个组合键。同样SQL Server需要为其他列创建密度向量，因为只有第1列（ProductID）是直方图里有信息，这个在上一部分我们已经看过了。当你看用DBCC SHOW_STATISTICS命令的输出时，密度向量是第2个表信息。

SQL Server在这里存储选择率（selectivity），不同列组合的密度。例如，ProductID列的All density值是0.003759399，你可以用下列语句来验证下：

1  -- The "All Density" value for the column ProductID: 0,0037593984962406015
2 SELECT 1 / CAST(COUNT(DISTINCT ProductID) AS NUMERIC(18, 2)) FROM Sales.SalesOrderDetail
3 GO

对于ProductID，SalesOrderID组合列和ProductID，SalesOrderID，SalesOrderDetailID组合列的All density值分别是8.242868E-06和8.242868E-06。你可以用1除以2个组合列的唯一值来验证下。这里我们的记录是121317，这些聚集值（SalesOrderID，SalesOrderDetailID组成了聚集键）都是唯一的，我们可以计算下：1/121317=8.242867858585359e-6。

在基数预估期间，SQL Server如何使用这个信息，详细可以点击刚才提到的统计信息内幕：直方图和密度向量。