SQL优化

优化口诀：

全职匹配我最爱，最左前缀要遵守。
带头大哥不能死，中间兄弟不能断。
索引列上少计算，范围之后全失效。
LIKE百分写最右，覆盖索引不写*。
不等空值还有OR，索引影响要注意。
var引号不可丢，SQL优化有诀窍。

索引

索引概念

索引：索引（Index）是帮助MySQL高效获取数据的数据结构。可以得到索引的本质：索引就是数据接口。
可以简单理解为：排好序的快速查找的数据结构。

一般来说索引本身也很大，不可能全部存储在内存中，因此索引往往以索引文件的形式存储在磁盘上，我们平常所说的索引，如果没
有特别的指明，都是指B树，（多路搜索树，并不一定是二叉的）结构组织的索引

索引分类

-单值索引： 即一个索引只包含单个列，一个表可以有多个单列索引。
-唯一索引： 唯一索引的只必须唯一，但允许有空值。
-复合索引： 即一个索引可以包含多个列。

主键一般只需要一个，但是可以建立在多个列上，称为：联合主键。
索引同样也可以建立在多个列上，称为：联合索引。
创建：

create [unique] index indexName on tableName(col1,col2,...);
alter table 表名 add [unique] index [indexName] on (columnName(length));

删除：

drop index indexname on tableName;

查看：

show index from tableName

Explain关键字

使用explain关键字可以模拟优化器执行SQL查询语句，从而知道MySQL是如何处理你的SQL语句的。分析你的查询语句或是表结构的性能瓶颈。

模拟执行SQL语句的一个工具，通过模拟执行的参数，可以知道mysql是如何处理我们写的SQL。可以通过explain参数知道我们sql
语句的性能瓶颈，进一步优化SQL。

性能分析> Explain

解释：

使用Explain关键字可以模拟优化器执行sql查询语句，从而知道mysql是如何处理你的sql语句。
分析你的查询语句或者是表结构的性能瓶颈。

建立索引常用的规则如下：（索引最好不要超过6,7个）
能干嘛：

1.表的读取顺序
2.数据读取操作的操作类型
3.哪些索引可以使用
4.哪些索引被实际引用
5.表之间的引用
6.每张表有多少行被优化器查询

语法：

explain sql

id:

select 查询的序列，包含一组数字，表示查询中执行select字句或操作表的顺序
三种情况：
	1.id相同，执行顺序由上到下
	2.id不同，如果是子查询，id序号会递增，id值越大优先级越高，越先被执行。
	3.id不同，同时存在

select_type:

查询的类型，主要是用于区别 普通查询、联合查询、子查询等的复杂查询
	1.simple
		简单的select查询，查询中不包含子查询或者union
	2.primary
		查询中若包含任何复杂的子部分，最外层查询则被标记为primary。
	3.subquery
		在select或where列表中包含子查询
	4.derived/materialized
		在from列表中包含的子查询被标记为derived(衍生) mysql会递归执行这些子查询，把结果放在临时表中
	5.union
		若第二个select出现在union之后，则会标记为union；若union包含在from子句的子查询中，外层select将标记为：derived
	6.union result
		从union表获取结果的select、。

table:

显示这一行的数据是关于哪一张表的

type:

显示查询使用了哪种索引类型：（好>差）
system > const > eq_ref > ref > range > index > all

system:
	表只用一行记录（等于系统表），这是const类型的特列，平时不会出现，这个也忽略不计

const：
	表示通过索引一次就找到了，const用于比较primary key或unique索引。因为只匹配一行数据，索引很快，
如果将主键置于where列表中，mysql就能将该查询转换为一个常量。

eq_ref:
	唯一性索引扫描，对于每个索引键，表中只有一条记录与之匹配。常见于主键或唯一索引扫描

ref:
	非唯一性索引扫描，返回匹配某个单独值的所有行，本质上也是一种索引访问，它返回所有匹配某个单独值的行
然而，它可能会找到多个符合条件的行，所以它应该属于查找和扫描的混合体。

range：
	只检索给定的范围的行，使用一个索引来选择行。key列显示使用了哪个索引，一般就是在你的where字句中出
现了between，<,> ,in 等查询，这种范围扫描索引比全表扫描要好，因为它只需要开始于索引的某一点，
而结束与另一点，不用扫描全部索引。
    
index:
    full index scan, index 与 all区别为index类型只遍历索引树，这通常比all快，因为索引文件通常比
数据文件小。（也就是说虽然all和index都是读全表，但是index是从索引中读取的，而all是从硬盘中读取的）
    
all:
    full table scan，将遍历全表以找到匹配的行。

备注：一般来说：得保证查询至少达到range级别，最好能达到ref。

System类型：直接拿出就可以，不需要匹配。

const 类型：使用索引查询具体的值。

eq_ref 类型：如下所示：在b表中user_id列上，每一个值在a表中都只有一个。

ref类型：如下所示：在a表中id列上，每一个值在b表中不仅仅只有一个值，所以是re而不是eq_ref.

range类型：

index类型：

all类型：

possible_keys：

显示可能应用在这张表中的索引，一个或多个。
查询涉及到的字段上若存在索引，则该索引将被列出，但不一定被查询实际使用。

key：

实际使用的索引。如果为null，则没有使用索引。
查询中若使用了覆盖索引，则该索引和查询的select字段重叠。

key_len：

表示索引中使用的字节数，key 通过该列计算查询中使用的索引的长度，在不损失精确性的情况下，长度越短越好。
key_len显示的值为索引字段的最大可能长度，并非实际使用长度，即key_len是根据表定义计算得到，而不是通过表内检索得出。
key_len索引字段的类型最大长度。int = 4，使用的是UTF-8编码。varchar(20) ==> 20 * 3 + null(1字节)+记录长度（2字节） = 63 ；
ascii:1字节
gbk:2字节
utf:3字节

表结构：

由上可以计算出下列 key_len: 152 = 50 * 3 + 2 = 152
- utf-8 一个字符占三个字节数
- 2：2个用于记录varchar的实际存储长度
- 由于使用的 not null 所以无需使用单独一个字节用于保存null。

表结构修改：

对应的结果：

ref：

显示索引的哪一列被使用了，如果可能的话，是一个常数，哪些列或常量被用于查找索引列上的值

rows：

根据表统计信息及索引选用情况，大致估算出找到所需的记录所需要读取的行数

extra：

包含不适合在其他列中显示但十分重要的额外信息

1.using filesort
	说明mysql会对数据使用一个外部的索引排序，而不是按照表内的索引顺序进行读取。mysql中无法利用索引
完成的排序操作称为“文件排序”。 
    --> 如果出现了using filesort，则表示在order by中没有使用到联合索引。

2.using temporary
	使用了临时表保存中间结果，mysql在对查询结果排序时使用临时表，常见于排序order by 和
分组查询group by

3.using index
	表示相应的select操作中使用了覆盖索引，避免访问了表的数据行，效率不错。
如果同时出现了using where，表明索引被用来执行索引键值的查找。如果没有同时出现using where，
表明索引用来读取数据而非执行查找动作。

4.using where
	表明使用了where过滤

5.using join buffer 
	使用了连接缓存

6.impossible where
	where字句的值总是false，不能用来获取让任何元组

7.select tables optimized away 
	在没有group by字句的情况下，基于索引优化min/max操作或者对于myisam存储引擎优化count(*)操作。
不必等到执行阶段在进行计算，查询执行计划生成的阶段即完成优化

8.distinct
	优化distinct操作，在找到第一匹配的元组后即停止找同样值的动作。

示例：
下面设计user表的时候，设计了一个联合索引，（name,age,position）。
当只使用到了联合索引中的一个时，索引都生效。
1.使用到联合索引中的第一列，可以使用到索引

2.使用到联合索引中的第二列，可以使用到索引

3.使用到联合索引中的第三列，可以使用到索引

4.使用联合索引中的第一二列，可以使用到索引

5.使用联合索引中的第二三列，出现了using filesort，需要优化

6.使用联合索引中的第一三列，出现了using filesort，需要优化

如何注意索引优化：
1.sql语句的优化。
2.创建数据结构时，要尽量考虑到索引的使用。复合索引在建立和使用时，尽量考虑在用户应用查询时，常用的排序方向和字段组合顺序一致；

索引失效

1.全值匹配我最爱

2.最佳左前缀法则（如果索引了多列，要遵守最左前缀法则，指的是查询从索引的最左列并且不跳过索引中的列）

3.不在索引列上做任何操作（计算，函数，（自动或手动）类型转换），会导致索引失效而转向全表扫描

4.存储引擎不能使用索引中范围条件右边的列
从下面第一条和第三条sql的key_len可以看出，使用到的索引个数是一样的，即第三个sql中，age之后的，即position索引没有生效。
即在范围后面的列的索引是不会生效的。

5.尽量使用覆盖索引（只访问索引的查询（索引列和查询列一致）），减少select *

6.mysql在使用不等于（！=或者<>）的时候无法使用索引而导致全表扫描、

7.is null. is not null 也无法使用索引

8.like 以通配符开头（'%abc...'）mysql索引失效会变成全表扫描的操作
已知，name属性建立了索引
1.没有使用通配符，使用到了索引

2.使用了前后通配符，没有使用到索引，索引失效，扫描全表。

3.使用了前通配符，没有使用到索引，索引失效，导致扫描全表。

4.使用了后通配符，使用到了索引，索引类型为range。

9.字符串不加单引号索引失效
1.正确写法，使用了索引，索引类型为ref

2.字符串不加单引号时，会导致索引失效，扫描全表。

10.少用or，用它来连接时会索引失效
可以查询，索引失效了，扫描全表

建立索引常用的规则如下：

1、表的主键、外键必须有索引；

2、数据量超过300的表应该有索引；

3、经常与其他表进行连接的表，在连接字段上应该建立索引；

4、经常出现在Where子句中的字段，非凡是大表的字段，应该建立索引；

5、索引应该建在选择性高的字段上（枚举型字段不建索引）；

6、索引应该建在小字段上，对于大的文本字段甚至超长字段，不要建索引；

7、在Join表的时候使用相同类型的列，并将其索引。

如果有很多Join的操作，Join的字段应该加索引，同时保证这些字段的类型一致。外键字段加上索引

8、复合索引的建立需要进行仔细分析；尽量考虑用单字段索引代替：

A、正确选择复合索引中的主列字段，一般是选择性较好的字段；
B、复合索引的几个字段是否经常同时以AND方式出现在Where子句中？单字段查询是否极少甚至没有？假如是，则可以建立复合索引；否则考虑单字段索引；
C、假如复合索引中包含的字段经常单独出现在Where子句中，则分解为多个单字段索引；
D、假如复合索引所包含的字段超过3个，那么仔细考虑其必要性，考虑减少复合的字段；
E、假如既有单字段索引，又有这几个字段上的复合索引，一般可以删除复合索引；

9、频繁进行数据操作的表，不要建立太多的索引；

10、删除无用的索引，避免对执行计划造成负面影响；

11、避免使用select *
- 从数据库里读出越多的数据，那么查询就会变得很慢。所以，应该养成需要什么字段就取什么字段的好习惯。

以上是一些普遍的建立索引时的判定依据。一言以蔽之，索引的建立必须慎重，对每个索引的必要性都应该经过仔细分析，要有建立的依据。因为太多的索引与不充分、不正确的索引对性能都毫无益处：在表上建立的每个索引都会增加存储开销，索引对于插入、删除、更新操作也会增加处理上的开销。另外，过多的复合索引，在有单字段索引的情况下，一般都是没有存在价值的；相反，还会降低数据增加删除时的性能，凡是对频繁更新的表来说，负面影响更大

4、避免多个范围条件

实际开发中，我们会经常使用多个范围条件，比如想查询某个时间段内登录过的用户：

select user.* from user where login_time > '2017-04-01' and age between 18 and 30;

这个查询有一个问题：它有两个范围条件，login_time列和age列，MySQL可以使用login_time列的索引或者age列的索引，但无法同时使用它们。

5、覆盖索引

如果一个索引包含或者说覆盖所有需要查询的字段的值，那么就没有必要再回表查询，这就称为覆盖索引。覆盖索引是非常有用的工具，可以极大的提高性能，因为查询只需要扫描索引会带来许多好处：

索引条目远小于数据行大小，如果只读取索引，极大减少数据访问量
索引是有按照列值顺序存储的，对于I/O密集型的范围查询要比随机从磁盘读取每一行数据的IO要少的多

6、使用索引扫描来排序

MySQL有两种方式可以生产有序的结果集，其一是对结果集进行排序的操作，其二是按照索引顺序扫描得出的结果自然是有序的。如果explain的结果中type列的值为index表示使用了索引扫描来做排序。

扫描索引本身很快，因为只需要从一条索引记录移动到相邻的下一条记录。但如果索引本身不能覆盖所有需要查询的列，那么就不得不每扫描一条索引记录就回表查询一次对应的行。这个读取操作基本上是随机I/O，因此按照索引顺序读取数据的速度通常要比顺序地全表扫描要慢。

在设计索引时，如果一个索引既能够满足排序，又满足查询，是最好的。

只有当索引的列顺序和ORDER BY子句的顺序完全一致，并且所有列的排序方向也一样时，才能够使用索引来对结果做排序。如果查询需要关联多张表，则只有ORDER BY子句引用的字段全部为第一张表时，才能使用索引做排序。ORDER BY子句和查询的限制是一样的，都要满足最左前缀的要求（有一种情况例外，就是最左的列被指定为常数，下面是一个简单的示例），其它情况下都需要执行排序操作，而无法利用索引排序。

// 最左列为常数，索引：(date,staff_id,customer_id)

select staff_id,customer_id from demo where date = '2015-06-01' order by staff_id,customer_id

7、冗余和重复索引

冗余索引是指在相同的列上按照相同的顺序创建的相同类型的索引，应当尽量避免这种索引，发现后立即删除。比如有一个索引(A,B)，再创建索引(A)就是冗余索引。冗余索引经常发生在为表添加新索引时，比如有人新建了索引(A,B)，但这个索引不是扩展已有的索引(A)。

大多数情况下都应该尽量扩展已有的索引而不是创建新索引。但有极少情况下出现性能方面的考虑需要冗余索引，比如扩展已有索引而导致其变得过大，从而影响到其他使用该索引的查询。

8、删除长期未使用的索引

定期删除一些长时间未使用过的索引是一个非常好的习惯。

关于索引这个话题打算就此打住，最后要说一句，索引并不总是最好的工具，只有当索引帮助提高查询速度带来的好处大于其带来的额外工作时，索引才是有效的。对于非常小的表，简单的全表扫描更高效。对于中到大型的表，索引就非常有效。对于超大型的表，建立和维护索引的代价随之增长，这时候其他技术也许更有效，比如分区表。最后的最后，explain后再提测是一种美德。

特定类型查询优化

优化COUNT()查询

COUNT()可能是被大家误解最多的函数了，它有两种不同的作用，其一是统计某个列值的数量，其二是统计行数。统计列值时，要求列值是非空的，它不会统计NULL。如果确认括号中的表达式不可能为空时，实际上就是在统计行数。最简单的就是当使用COUNT(*)时，并不是我们所想象的那样扩展成所有的列，实际上，它会忽略所有的列而直接统计所有的行数。

我们最常见的误解也就在这儿，在括号内指定了一列却希望统计结果是行数，而且还常常误以为前者的性能会更好。但实际并非这样，如果要统计行数，直接使用COUNT(*)，意义清晰，且性能更好。

有时候某些业务场景并不需要完全精确的COUNT值，可以用近似值来代替，EXPLAIN出来的行数就是一个不错的近似值，而且执行EXPLAIN并不需要真正地去执行查询，所以成本非常低。通常来说，执行COUNT()都需要扫描大量的行才能获取到精确的数据，因此很难优化，MySQL层面还能做得也就只有覆盖索引了。如果不还能解决问题，只有从架构层面解决了，比如添加汇总表，或者使用redis这样的外部缓存系统。

优化关联查询

在大数据场景下，表与表之间通过一个冗余字段来关联，要比直接使用JOIN有更好的性能。如果确实需要使用关联查询的情况下，需要特别注意的是：

确保ON和USING字句中的列上有索引。在创建索引的时候就要考虑到关联的顺序。当表A和表B用列c关联的时候，如果优化器关联的顺序是A、B，那么就不需要在A表的对应列上创建索引。没有用到的索引会带来额外的负担，一般来说，除非有其他理由，只需要在关联顺序中的第二张表的相应列上创建索引（具体原因下文分析）。
确保任何的GROUP BY和ORDER BY中的表达式只涉及到一个表中的列，这样MySQL才有可能使用索引来优化。

要理解优化关联查询的第一个技巧，就需要理解MySQL是如何执行关联查询的。当前MySQL关联执行的策略非常简单，它对任何的关联都执行
嵌套循环关联操作，即先在一个表中循环取出单条数据，然后在嵌套循环到下一个表中寻找匹配的行，依次下去，直到找到所有表中匹配的行为为止。然后根据各个表匹配的行，返回查询中需要的各个列。

太抽象了？以上面的示例来说明，比如有这样的一个查询：

SELECT A.xx,B.yy

FROM A INNER JOIN B USING(c)

WHERE A.xx IN (5,6)

假设MySQL按照查询中的关联顺序A、B来进行关联操作，那么可以用下面的伪代码表示MySQL如何完成这个查询：

outer_iterator = SELECT A.xx,A.c FROM A WHERE A.xx IN (5,6);

outer_row = outer_iterator.next;

while(outer_row) {

inner_iterator = SELECT B.yy FROM B WHERE B.c = outer_row.c;

inner_row = inner_iterator.next;

while(inner_row) {

output[inner_row.yy,outer_row.xx];

inner_row = inner_iterator.next;

}

outer_row = outer_iterator.next;

}

可以看到，最外层的查询是根据A.xx列来查询的，A.c上如果有索引的话，整个关联查询也不会使用。再看内层的查询，很明显B.c上如果有索引的话，能够加速查询，因此只需要在关联顺序中的第二张表的相应列上创建索引即可。

优化LIMIT分页

当需要分页操作时，通常会使用LIMIT加上偏移量的办法实现，同时加上合适的ORDER BY字句。如果有对应的索引，通常效率会不错，否则，MySQL需要做大量的文件排序操作。

一个常见的问题是当偏移量非常大的时候，比如：LIMIT 10000 20这样的查询，MySQL需要查询10020条记录然后只返回20条记录，前面的10000条都将被抛弃，这样的代价非常高。

优化这种查询一个最简单的办法就是尽可能的使用覆盖索引扫描，而不是查询所有的列。然后根据需要做一次关联查询再返回所有的列。对于偏移量很大时，这样做的效率会提升非常大。考虑下面的查询：

SELECT film_id,description FROM film ORDER BY title LIMIT 50,5;

如果这张表非常大，那么这个查询最好改成下面的样子：

SELECT film.film_id,film.description

FROM film INNER JOIN (

SELECT film_id FROM film ORDER BY title LIMIT 50,5

) AS tmp USING(film_id);

这里的延迟关联将大大提升查询效率，让MySQL扫描尽可能少的页面，获取需要访问的记录后在根据关联列回原表查询所需要的列。

有时候如果可以使用书签记录上次取数据的位置，那么下次就可以直接从该书签记录的位置开始扫描，这样就可以避免使用OFFSET，比如下面的查询：

SELECT id FROM t LIMIT 10000, 10;

改为：

SELECT id FROM t WHERE id > 10000 LIMIT 10;

其它优化的办法还包括使用预先计算的汇总表，或者关联到一个冗余表，冗余表中只包含主键列和需要做排序的列。

哪些情况需要建立索引

1.主键自动建立唯一索引
2.频繁作为查询条件的字段应该建立索引
3.查询中与其他表关联的字段，外键关系建立索引
4.频繁更新的字段不适合创建索引 --- 因为每次更新不单单是更新了记录还会更新索引，加重了IO负担
5.where条件里用不到的字段不创建所以
6.单键/组合索引的选择问题，who？（在高并发下倾向创建组合索引）
7.查询中排序的字段，排序字段若通过索引去访问将大大提高排序的速度
8.查询中统计或者分组字段

哪些情况不要创建索引

1.表记录太少

2.经常增删改的表（why：提高了查询速度，同时却会降低更新表的速度，如对表进行insert，update，delete，因为在更新表时，mysql不仅要保存数据，还需要保存一下索引文件）。

3.数据重复且分布平均的表字段，因此应该只为最经常查询和最经常排序的数据列建立索引。

注意：如果某个数据列包含许多重复数据的内容，为它建立索引就没有太大的实际效果。

数据库函数

1.plsql，首创于oracle。
2.plsql，有两种，有返回值的叫函数，没有返回值的，叫存储过程。（一般都是用来执行一系列的复杂的数据库操作，比如自动生成表数据，
比如对多张表的关联增删改查。）

开启执行函数。
show variables like 'log_bin_trust_function_creators';
set global log_bin_trust_function_creators = 1

posted @ 2019-08-04 10:14 ooyhao 阅读(666) 评论(0) 收藏举报

刷新页面返回顶部

欧阳

努力就有收获，请关注公众号 --- 十指江湖