MySQL Order By索引优化 - Ephraim

公告

在一些情况下，MySQL可以直接使用索引来满足一个 ORDER BY 或 GROUP BY 子句而无需做额外的排序。尽管 ORDER BY 不是和索引的顺序准确匹配，索引还是可以被用到，只要不用的索引部分和所有的额外的 ORDER BY 字段在 WHERE 子句中都被包括了。

使用索引的MySQL Order By
下列的几个查询都会使用索引来解决 ORDER BY 或 GROUP BY 部分：
SELECT * FROM t1 ORDER BY key_part1,key_part2,... ;
SELECT * FROM t1 WHERE key_part1=constant ORDER BY key_part2;
SELECT * FROM t1 WHERE key_part1=constant GROUP BY key_part2;
SELECT * FROM t1 ORDER BY key_part1 DESC, key_part2 DESC;
SELECT * FROM t1 WHERE key_part1=1 ORDER BY key_part1 DESC, key_part2 DESC;

不使用索引的MySQL Order By
在另一些情况下，MySQL无法使用索引来满足 ORDER BY，尽管它会使用索引来找到记录来匹配 WHERE 子句。这些情况如下：
* 对不同的索引键做 ORDER BY ：
SELECT * FROM t1 ORDER BY key1, key2;
* 在非连续的索引键部分上做 ORDER BY：
SELECT * FROM t1 WHERE key2=constant ORDER BY key_part2;
* 同时使用了 ASC 和 DESC：
SELECT * FROM t1 ORDER BY key_part1 DESC, key_part2 ASC;
* 用于搜索记录的索引键和做 ORDER BY 的不是同一个：
SELECT * FROM t1 WHERE key2=constant ORDER BY key1;
* 有很多表一起做连接，而且读取的记录中在 ORDER BY 中的字段都不全是来自第一个非常数的表中（也就是说，在 EXPLAIN 分析的结果中的第一个表的连接类型不是 const）。
* 使用了不同的 ORDER BY 和 GROUP BY 表达式。
* 表索引中的记录不是按序存储。例如，HASH 和 HEAP 表就是这样。

通过执行 EXPLAIN SELECT ... ORDER BY，就知道MySQL是否在查询中使用了索引。如果 Extra 字段的值是 Using filesort，则说明MySQL无法使用索引。详情请看"7.2.1 EXPLAIN Syntax (Get Information About a SELECT)"。当必须对结果进行排序时，MySQL 4.1以前 它使用了以下 filesort 算法：

1. 根据索引键读取记录，或者扫描数据表。那些无法匹配 WHERE 分句的记录都会被略过。
2. 在缓冲中每条记录都用一个‘对’存储了2个值（索引键及记录指针）。缓冲的大小依据系统变量 sort_buffer_size 的值而定。
3. 当缓冲慢了时，就运行 qsort（快速排序）并将结果存储在临时文件中。将存储的块指针保存起来（如果所有的‘对’值都能保存在缓冲中，就无需创建临时文件了）。
4. 执行上面的操作，直到所有的记录都读取出来了。
5. 做一次多重合并，将多达 MERGEBUFF（7）个区域的块保存在另一个临时文件中。重复这个操作，直到所有在第一个文件的块都放到第二个文件了。
6. 重复以上操作，直到剩余的块数量小于 MERGEBUFF2 (15)。
7. 在最后一次多重合并时，只有记录的指针（排序索引键的最后部分）写到结果文件中去。
8. 通过读取结果文件中的记录指针来按序读取记录。想要优化这个操作，MySQL将记录指针读取放到一个大的块里，并且使用它来按序读取记录，将记录放到缓冲中。缓冲的大小由系统变量 read_rnd_buffer_size 的值而定。这个步骤的代码在源文件 `sql/records.cc' 中。

这个逼近算法的一个问题是，数据库读取了2次记录：一次是估算 WHERE 分句时，第二次是排序时。尽管第一次都成功读取记录了（例如，做了一次全表扫描），第二次是随机的读取（索引键已经排好序了，但是记录并没有）。在MySQL 4.1 及更新版本中，filesort 优化算法用于记录中不只包括索引键值和记录的位置，还包括查询中要求的字段。这么做避免了需要2次读取记录。改进的 filesort 算法做法大致如下：

1. 跟以前一样，读取匹配 WHERE 分句的记录。 2. 相对于每个记录，都记录了一个对应的；‘元组’信息信息，包括索引键值、记录位置、以及查询中所需要的所有字段。 3. 根据索引键对‘元组’信息进行排序。 4. 按序读取记录，不过是从已经排序过的‘元组’列表中读取记录，而非从数据表中再读取一次。

使用改进后的 filesort 算法相比原来的，‘元组’比‘对’需要占用更长的空间，它们很少正好适合放在排序缓冲中（缓冲的大小是由 sort_buffer_size 的值决定的）。因此，这就可能需要有更多的I/O操作，导致改进的算法更慢。为了避免使之变慢，这种优化方法只用于排序‘元组’中额外的字段的大小总和超过系统变量 max_length_for_sort_data 的情况（这个变量的值设置太高的一个表象就是高磁盘负载低CPU负载）。想要提高 ORDER BY 的速度，首先要看MySQL能否使用索引而非额外的排序过程。如果不能使用索引，可以试着遵循以下策略：

* 增加 sort_buffer_size 的值。
* 增加 read_rnd_buffer_size 的值。
* 修改 tmpdir，让它指向一个有很多剩余空间的专用文件系统。

如果使用MySQL 4.1或更新，这个选项允许有多个路径用循环的格式。各个路径之间在 Unix 上用冒号（':'）分隔开来，在 Windows，NetWare以及OS/2 上用分号（';'）。可以利用这个特性将负载平均分摊给几个目录。注意：这些路径必须是分布在不同物理磁盘上的目录，而非在同一个物理磁盘上的不同目录。

优化嵌套查询

MySQL4.1开始支持SQL的子查询。这个技术可以使用SELECT语句来创建一个单列的查询结果，然后把这个查询结果作为过滤条件用在另一个查询中，使用子查询可以一次性地完成多逻辑上需要多个步骤才能完成的SQL操作，同时也可以避免事务或者表锁死，并且些起来也很容易。但是，有些情况下，子查询可以被更有效的连接(JOIN)替代。

例如：

explain select * from sales2 where company_id not in(select id from company2) \G

explain select * from sales2 left join comany2 on sales2.company_id = company2.id where sales2.company_id is null \G;

第一句看起来比第二句更简洁，但是第二句比第一就更快。因为使用JOIN来完成这个查询，速度比较快，尤其如果对compay2表中的id建立了索引的话，那么性能将会更好。那为什么在这种情况下使用JOIN会更有效率呢。因为MySQL不需要在内存中创建临时表来完成这个逻辑上需要两个步骤的查询工作。

优化OR条件

对于含有OR的查询子句，如果要利用索引，则OR之间的每个条件列都必须用到索引；如果没有索引，则考虑增加索引。

使用SQL提示

SQL 提示(SQL HINT)是优化数据库的一个重要手段，简单来说就是在SQL语句中加入一些人为的提示来达到优化的操作的目的。

例如：

SELECT SQL_BUFFER_RESULTS * FROM ...

这个语句将强制MySQL生成一个临时结果集。只要临时结果集生成后，所有表上的锁定均被释放。这能在遇到表锁定问题时或者要花很长时间将结果传给客户端时所帮助，因为可以尽快释放锁资源，

下面是一些在MySQL中常用的SQL提示。

1. USE INDEX

在查询语句中表名的后面，添加USE INDEX 来提供希望MySQL去参考的索引列表，就可以让MySQL不再考虑其他可用的索引。

引用

explain select * from sales2 use index (ind_sales2_id) where id 3 \G;

2. IGNORE INDEX

如果用户只是单纯地想让MySQL忽略一个或者多个索引，则可以使用IGNORE INDEX 作为HINT

3. FORCE INDEX

为强制MySQL使用一个特定的索引，可在查询中使用FORCE INDEX作为HINT。例如当不强制使用索引的时候，因为id的值都是大于0的，因为MySQL会默认进行全表扫描，而不使用索引。例如：

引用

expalin select * from sales2 where id > 0 \G;

但是，当使用FORCE INDEX进行提示时，即便使用索引的效率不是很高，MySQL还是选择使用了索引，这是MySQL留给用户的一个自行选择执行计划的权利。加入FORCE INDEX提示后在执行上面的SQL

引用

explain select * from sales2 force index(index_sales2_id) where id > 0 \G;

SQL优化问题是数据库性能优化最基础也是最重要的一个问题，实践表明很多数据库性能问题都是由于不合适的SQL语句造成。一些列的SQL优化描述。怎么定位问题，怎么在编写的时候优化，怎么来应对。不过优化SQL语句经常需要考虑的几个方面，比如索引，表分析，排序等等。

优化嵌套查询
MySQL4.1开始支持SQL的子查询。这个技术可以使用SELECT语句来创建一个单列的查询结果，然后把这个查询结果作为过滤条件用在另一个查询中，使用子查询可以一次性地完成多逻辑上需要多个步骤才能完成的SQL操作，同时也可以避免事务或者表锁死，并且些起来也很容易。但是，有些情况下，子查询可以被更有效的连接(JOIN)替代。
例如：

explain select * from sales2 where company_id not in(select id from company2) \G 
explain select * from sales2 left join comany2 on sales2.company_id = company2.id  where sales2.company_id is null \G;

第一句看起来比第二句更简洁，但是第二句比第一就更快。因为使用JOIN来完成这个查询，速度比较快，尤其如果对compay2表中的id建立了索引的话，那么性能将会更好。那为什么在这种情况下使用JOIN会更有效率呢。因为MySQL不需要在内存中创建临时表来完成这个逻辑上需要两个步骤的查询工作。
优化OR条件
对于含有OR的查询子句，如果要利用索引，则OR之间的每个条件列都必须用到索引；如果没有索引，则考虑增加索引。
使用SQL提示
SQL 提示(SQL HINT)是优化数据库的一个重要手段，简单来说就是在SQL语句中加入一些人为的提示来达到优化的操作的目的。例如：

SELECT SQL_BUFFER_RESULTS * FROM ...

下面是一些在MySQL中常用的SQL提示。

1. USE INDEX

在查询语句中表名的后面，添加USE INDEX 来提供希望MySQL去参考的索引列表，就可以让MySQL不再考虑其他可用的索引。

explain select * from sales2 use index (ind_sales2_id) where id  3 \G;

2. IGNORE INDEX

如果用户只是单纯地想让MySQL忽略一个或者多个索引，则可以使用IGNORE INDEX 作为HINT
3. FORCE INDEX

expalin select * from sales2 where id > 0 \G;

explain select * from sales2 force index(index_sales2_id) where id > 0 \G;

posted on 2010-05-26 05:33 Ephraim 阅读(13282) 评论(1) 编辑收藏举报

刷新页面返回顶部

PHP程序研究

公告