二十一、执行计划
一、什么是执行计划
用户提交的 sql 语句,数据库查询优化器,经过分析生成多个数据库可以识别的高效执行查询方式。然
后优化器会在众多执行计划中找出一个资源使用最少,而不是最快的执行方案,给你展示出来,可以是
文本格式,也可以是图形化的执行方案。
二、为什么要读懂执行计划?
首先执行计划让你知道你复杂的 sql 到底是怎么执行的,有没有按照你想的方案执行,有没有按照最高
效的方式执行,使用了众多索引的哪一个,怎么排序,怎么合并数据的,有没有造成不必要资源浪费等
等。官方数据显示,执行 t-sql 存在问题,80%都可以在执行计划中找到答案。
三、这对于图形化的执行计划分析
执行计划,可以以文本,图形化展示出来。我们主要以图形化执行计划主导进行分析,然而执行计划中
包含78个可用的操作符。
图片介绍:https://msdn.microsoft.com/zh-cn/library/ms175913(v=sql.90).aspx
四、清除执行计划
DBCC FREEPROCCACHE DBCC DROPCLEANBUFFERS感觉
五、如何查看执行计划
5.1、连线
越粗表示扫描影响的行数愈多。
Actual Number of Rows 扫描中实际影响的的行数。
Estimated Number of Rows 预估扫描影响的行数。
Estimated row size 操作符生成的行的估计大小(字节)。
Estimated Data Size 预估影响的数据的大小。
5.2、 Tooltips ,当前步骤执行信息
Note:这个tips的信息告诉我们执行的对象是什么,采用的操作操作是什么,查找的数据是什么,使用
的索引是什么,排序与否,预估 cpu、I/O 影响行数,实际行数等信息。
5.3、Table Scan(表扫描)
当表中没有聚集索引,又没有合适索引的情况下,会出现这个操作。这个操作是很耗性能的,他的出现
也意味着优化器要遍历整张表去查找你所需要的数据。
5.4、Clustered Index Scan(聚集索引扫描)、Index Scan(非聚集索引扫描)
这个图标两个操作都可以使用,一个聚集索引扫描,一个是非聚集索引扫描。
聚集索引扫描:聚集索引的数据体积实际是就是表本身,也就是说表有多少行多少列,聚集所有就有多
少行多少列,那么聚集索引扫描就跟表扫描差不多,也要进行全表扫描,遍历所有表数据,查找出你想
要的数据。
非聚集索引扫描:非聚集索引的体积是根据你的索引创建情况而定的,可以只包含你要查询的列。那么
进行非聚集索引扫描,便是你非聚集中包含的列的所有行进行遍历,查找出你想要的数据。
5.5、Key Lookup(键值查找)
首先需要说的是查找,查找与扫描在性能上完全不是一个级别的,扫描需要遍历整张表,而查找只需要
通过键值直接提取数据,返回结果,性能要好。
当你查找的列没有完全被非聚集索引包含,就需要使用键值查找在聚集索引上查找非聚集索引不包含的
列。
5.6、 RID Lookoup (RID查找)
5.7、Clustered Index Seek(聚集索引查找)、Index Seek(非聚集索引查找)
聚集索引查找和非聚集索引查找都是使用该图标。
聚集索引查找:聚集索引包含整个表的数据,也就是在聚集索引的数据上根据键值取数据。
非聚集索引查找:非聚集索引包含创建索引时所包含列的数据,在这些非聚集索引的数据上根据键值取
数据。
5.8、Hash Match
这个图标有两种地方用到,一种是表关联,一种是数据聚合运算时。
再分别说这两种运算的前面,我先说说Hashing(编码技术)和Hash Table(数据结构)。
Hashing:在数据库中根据每一行的数据内容,转换成唯一符号格式,存放到临时哈希表中,当需要原
始数据时,可以给还原回来。类似加密解密技术,但是他能更有效的支持数据查询。
Hash Table:通过hashing处理,把数据以key/value的形式存储在表格中,在数据库中他被放在
tempdb中。
接下来,来说说Hash Math的表关联跟行数据聚合是怎么操作运算的。
表关联
如上图,关联两个数据集时,Hash Match会把其中较小的数据集,通过Hashing运算放入 HashTable
中,然后一行一行的遍历较大的数据集与 HashTable 进行相应的匹配拉取数据。
数据聚合:当查询中需要进行Count/Sum/Avg/Max/Min时,数据可能会采用把数据先放在内存中的
HashTable 中然后进行运算。
5.9、Nested Loops
这个操作符号,把两个不同列的数据集汇总到一张表中。提示信息中的Output List中有两个数据集,
下面的数据集(inner set)会一一扫描与上面的数据集(out set),扫描完为止,这个操作才算是完
成。
5.10、Merge Join
这种关联算法是对两个已经排过序的集合进行合并。如果两个聚合是无序的则将先给集合排序再进行一
一合并,由于是排过序的集合,左右两个集合自上而下合并效率是相当快的
5.11、Sort(排序)
对数据集合进行排序,需要注意的是,有些数据集合在索引扫描后是自带排序的。
5.12、Filter(筛选)
根据出现在having之后的操作运算符,进行筛选
5.13、Computer Scalar
在需要查询的列中需要自定义列,比如count(*) as cnt ,select name+''+age 等会出现此符号。
六、根据执行计划做优化
1、对查询进行优化,应尽量避免全表扫描(避免Table Scan),首先应考虑在 where 及 order by 涉及的列上建立索引。
2、应尽量避免在 where 子句中使用!=或<>操作符,否则将引擎放弃使用索引而进行全表扫描。对于非聚集索引,如果使用!=或<>操作符,非聚集索引不生效;
3、应尽量避免在 where 子句中对字段进行 null 值判断,否则将导致引擎放弃使用索引而进行全表扫描,如:可以在数据库设计时num上设置默认值0,确保表中num列没有null值,然后这样查询:
4、应尽量避免在 where 子句中使用 or 来连接条件,否则将导致引擎放弃使用索引而进行全在·表扫描,如:可以这样查询:
5、下面的查询也将导致全表扫描: 如果要走非聚集索引,like的时候,只能把%放到后面;会走索引若要提高效率,可以考虑全文检索。
6、in 和 not in 也要慎用,否则会导致全表扫描,如:如果使用in ,有聚集索引,会根据索引查找,not int 聚集索引扫描(不推荐)
select id from t where num is null select id from t where num=0 select id from t where num=10 or num=20 select id from t where num=10 union all select id from t where num=20 select id from t where name like '%abc%' select id from t where num in(1,2,3)
对于连续的数值,能用 between 就不要用 in 了: between 或者是 not between 都会索引查找
7、如果在 where 子句中使用参数(变量),也会导致全表扫描。因为SQL只有在运行时才会解析局部变量,但优化程序不能将访问计划的选择推迟到运行时;它必须在编译时进行选择。然而,如果在编译时建立访问计划,变量的值还是未知的,因而无法作为索引选择的输入项。如下面语句将进行全表扫描:可以改为强制查询使用索引:
8、应尽量避免在 where 子句中对字段进行表达式操作,这将导致引擎放弃使用索引而进行全表扫描。
9、应尽量避免在where子句中对字段进行函数操作,这将导致引擎放弃使用索引而进行全表扫描。
10、不要在 where 子句中的“=”左边进行函数、算术运算或其他表达式运算,否则系统将可能无法正确使用索引。
select id from t where num between 1 and 3 select id from t where num=@num select id from t with(index(索引名)) where num=@num select id from t where num/2=100 select id from t where num=100*2 select id from t where substring(name,1,3)='abc' --name以 abc开头的id select id from t where datediff(day,createdate,'2005-11-30')=0 --'2005-11-30'生 成的id select id from t where name like 'abc%' select id from t where createdate>='2005-11- 30' and createdate<'2005-12-1'
11、在使用索引字段作为条件时,如果该索引是复合索引,那么必须使用到该索引中的第一个字段作为条件时才能保证系统使用该索引,否则该索引将不会被使用,并且应尽可能的让字段顺序与索引顺序相一致。
12、不要写一些没有意义的查询,如需要生成一个空表结构:这类代码不会返回任何结果集,但是会消耗系统资源的,应改成这样:
13、很多时候用 exists 代替 in 是一个好的选择:用下面的语句替换:
14、并不是所有索引对查询都有效,SQL是根据表中数据来进行查询优化的,当索引列有大量数据重复时,SQL查询可能不会去利用索引,如一表中有字段sex,male、female几乎各一半,那么即使在sex上建了索引也对查询效率起不了作用。
15、索引并不是越多越好,索引固然可以提高相应的 select 的效率,但同时也降低了 insert 及update的效率,因为 insert 或 update 时有可能会重建索引,所以怎样建索引需要慎重考虑,视具体情况而定。一个表的索引数最好不要超过6个,若太多则应考虑一些不常使用到的列上建的索引是否有必要。
16、应尽可能的避免更新 clustered 索引数据列,因为 clustered 索引数据列的顺序就是表记录的物理存储顺序,一旦该列值改变将导致整个表记录的顺序的调整,会耗费相当大的资源。若应用系统需要频繁更新 clustered 索引数据列,那么需要考虑是否应将该索引建为 clustered 索引。
17、尽量使用数字型字段,若只含数值信息的字段尽量不要设计为字符型,这会降低查询和连接的性能,并会增加存储开销。这是因为引擎在处理查询和连接时会逐个比较字符串中每一个字符,而对于数字型而言只需要比较一次就够了。
18、尽可能的使用 varchar/nvarchar 代替 char/nchar ,因为首先变长字段存储空间小,可以节省存储空间,其次对于查询来说,在一个相对较小的字段内搜索效率显然要高些。
19、任何地方都不要使用 select * from t ,用具体的字段列表代替“*”,不要返回用不到的任何字段。
select col1,col2 into #t from t where 1=0 create table #t(...) select num from a where num in(select num from b) select num from a where exists(select 1 from b where num=a.num)
20、尽量使用表变量来代替临时表。如果表变量包含大量数据,请注意索引非常有限(只有主键索引)。
21、避免频繁创建和删除临时表,以减少系统表资源的消耗。
22、临时表并不是不可使用,适当地使用它们可以使某些例程更有效,例如,当需要重复引用大型表或常用表中的某个数据集时。但是,对于一次性事件,最好使用导出表。
23、在新建临时表时,如果一次性插入数据量很大,那么可以使用 select into 代替 create table,避免造成大量 log ,以提高速度;如果数据量不大,为了缓和系统表的资源,应先create table,然后insert。
24、如果使用到了临时表,在存储过程的最后务必将所有的临时表显式删除,先 truncate table ,然后 drop table ,这样可以避免系统表的较长时间锁定。
25、尽量避免使用游标,因为游标的效率较差,如果游标操作的数据超过1万行,那么就应该考虑改写。
26、使用基于游标的方法或临时表方法之前,应先寻找基于集的解决方案来解决问题,基于集的方法通常更有效。 27、与临时表一样,游标并不是不可使用。对小型数据集使用 FAST_FORWARD 游标通常要优于其他逐行处理方法,尤其是在必须引用几个表才能获得所需的数据时。在结果集中包括“合计”的例程通常要比使用游标执行的速度快。如果开发时间允许,基于游标的方法和基于集的方法都可以尝试一下,看哪一种方法的效果更好。
28、尽量避免向客户端返回大数据量,若数据量过大,应该考虑相应需求是否合理。
29、尽量避免大事务操作,提高系统并发能力