索引及执行计划

1 索引作用

数据都是存在与硬盘上的，查询数据不可避免的需要进行IO操作

索引就是一种数据结构，类似于书的目录。意味着以后在查询数据的应该先找目录再找数据，而不是一页一页的翻书，从而提升查询速度降低IO操作。

索引在MySQL中也叫“键”，是存储引擎用于快速查找记录的一种数据结构：

* primary key  除了约束条件，还可以用来快速查询记录
* unique key   除了约束条件，还可以用来快速查询记录
* index key    单纯用来快速查询记录

* foreign key  只是用来约束表与表之间关系的，不是用来加速查询用的，不在我们的而研究范围之内

本质都是通过不断缩小想要查找的数据范围，筛选出最终的结果，同时将随机事件(一页一页翻书)变成顺序事件(先找目录，再找数据)，有了索引，我们可以总是用一种固定的方式查找数据。

强调：一张表中可以有多个索引(目录)，比如新华词典，可以按拼音查字，也可以按偏旁查字；但必须要按照规定的条件查，比如id设置了primary key，只有通过id查才能用到这个目录，用其他字段查用不到这个目录。

索引的缺点：

#1 当表中有大量数据存在的前提下，创建索引速度会很慢
#2 在索引创建完毕之后，对表的查询性能会大幅度的提升，但是写的性能也会大幅度的降低
比如书的目录写好后，你要增加一页内容，目录全部推翻重建；数据量特别大，插入数据时，涉及到重新创索引(目录)，会非常慢

索引不要随意的创建！！！

2 索引的种类(算法)

1 B树索引：b tree， B+tree， B*tree
2 Hash索引
3 R树
4 Full text
5 GIS

3 B树基于不同的查找算法分类介绍

类似二分法的树型数据存储结构

特点：

只有叶子节点存放的是真实数据，其他节点存放的是虚拟数据，仅仅是用来指路的；

树的层级越多，查询数据所需经历的步骤就越多(树有几层，查询数据就需要几步)，查询速度越慢；

每个磁盘块存储是有限制的，所以将id字段设为主键(索引)，一是用于唯一标识，二是因为int占的空间少，对应的磁盘块能存储的数据更多，树的层级就越低，查询数据步骤就越少，速度更快

B 树

B+树

在b tree基础上，之节点加入了双向指针。在范围查询方面提供了更好的性能(> < >= <= like)。

B*树

在b+tree基础上，枝节点也加入了双向指针（Innodb，使用B*树）

4 在功能上的分类

4.1 聚簇索引构建B树（簇就是区）

聚集索引指的就是主键
Innodb 引擎只有两个文件（表结构、表数据）直接将主键存放在了idb表中
MyIsam 引擎有三个文件单独将索引存在一个文件

4.1.1 前提

(1)建表时，指定了主键列，MYSQL InnoDB会将主键作为聚簇索引列，比如 id primary key
(2)如果没有主键,会选择唯一键(unique)作为聚集索引
(3)聚簇必须在建表时才有意义,一般是表的无关列(ID)
(4)如果以上都没有，自动生成隐藏的聚簇索引

4.1.2 作用

有了聚簇索引，将来插入的数据行，在同一个区内，都会按照id值的顺序，有序存储数据。

4.1.3 聚簇索引构建B树过程

段：一个表就是一个段，可以由一个或者多个区构成
区/簇：一个区（簇），默认1M，连续的64个页（pages）,一张表由多个簇构成
页：一个页，默认16k，连续的4个os的block，最小的存储单元

# 注意
上图只是举例说明，并不是一个叶子节点只存4行数据
枝节点也是由一个页存储，当然存储的数据可能更多
一颗b树索引至少要有root节点和叶子节点，枝节点可以没有（数据量少的情况）
聚簇索引的作用：拿主键列去查询的时候，可以快速锁定要查询的数据行所在的页，3次io
如果没有这个，需要全表扫描，代价很高，只能加速有主键列的查询速度，所以按主键查，是效率最高的
mysql 的 innoDB的表，是聚簇索引组织存储数据表，每个页是稀疏存储，不一定全存满整个页

# 其他列怎么办？引出辅助索引

4.2 辅助索引(S)构建B+树

什么是辅助索引？除主键之外的索引，如unique、index

为何要有辅助索引？

查询数据时不是每次都用到id，也就是聚簇索引，也可能用到其他字段，这个时候就无法利用聚簇索引。因此可以给其他字段设置辅助索引(也是一个b+树)，但辅助索引没有真实数据，它的叶子节点存放的是数据对应的主键值，拿到主键值后还是需要到主键值的b+树中去查询真实数据（回表）

4.2.1 前提

在除主键以外的普通列上构建索引，例如name字段

4.2.2 作用

优化非聚簇索引列之外的查询

4.2.3 辅助索引构建B树过程

# 查询时，拿着name=er去一层一层找到er这个值，对的id，因为查的是*，所有，通过id再去原来的聚簇索引中找具体数据（回表过程）

(1). 索引是基于表中,列(索引键)的值生成的B树结构
(2). 首先提取此列所有的值,进行自动排序
(3). 将排好序的值,均匀的分布到索引树的叶子节点中(16K)
(4). 然后生成此索引键值所对应得后端数据页的指针
(5). 生成枝节点和根节点,根据数据量级和索引键长度,生成合适的索引树高度
id  name  age  gender
select  *  from  t1 where id=10;
问题: 基于索引键做where查询,对于id列是顺序IO,但是对于其他列的查询,可能是随机IO.

4.3 聚簇索引和辅助索引构成区别

# 聚集索引只能有一个,非空唯一,一般是主键
# 辅助索引,可以有多个,用来配合聚集索引使用的
# 聚簇索引叶子节点,就是磁盘的数据行存储的数据页，辅助索引不存整体数据
# MySQL是根据聚簇索引,组织存储数据,数据存储时就是按照聚集索引的顺序进行存储数据
# 辅助索引,只会提取索引键值,进行自动排序生成B树结构

5 辅助索引细分

# 1.普通的单列辅助索引
# 2.联合索引（多列构建一个索引）
多个列作为索引条件,生成索引树,理论上设计得好,可以减少大量的回表
如果 select * from t1 where name='er' and  gender='男'; 这种比较多，建议name和gender建联合索引
构建索引过程相同，只不过现在按name和gender两列排序，生成枝节点时，只存储最左列（name）的值，不会存所有索引列（name和gender），所以，重复值少的列，放在最左侧

联合索引：注意最左原则(a,b,c 建立索引，相当于a索引，ab索引，abc索引)
1 查询条件中，必须包含最左列，上面的例子就是a列，只有b，c走不了索引，
2 建立索引时，一定要选择重复值少的列，作为最左列
# 全覆盖
select * from t1 where a =  and b= or c=         # 走索引（极小情况不走索引：索引失效，统计信息不真实）
select * from t1 where a =  and b in  and c in   # in条件等同于=，也会走索引
select * from t1 where c =  and b= and a =       # 也会走索引，因为sql优化器会把a位置调整
select * from t1 where a =  and b= order by c    # 全覆盖
# 部分覆盖
select * from t1 where a =
select * from t1 where a =  and b= 
select * from t1 where a =  and c= 
select * from t1 where a =  and b < > >= <= like and c=        # 不等值，只能覆盖到a,b 不能覆盖到c
select * from t1 where a < > >= <= like  and b = like and c=   # 不等值，只能覆盖到a
select *  from t1 where a = order by b                         # 走ab的索引
select *  from t1 where c = order by a                         # 就不走索引，多子句要按照执行顺序建立联合索引，c和a没有按顺序，不会走索引
# 不覆盖
 bc
 b
 c
# 3.唯一索引
索引列的值都是唯一的.
# 4.前缀索引
假设建立索引的列非常长，我们选择的索引列值长度过长（一个页存储的数据固定），会导致索引树变高，导致io次数变多
mysql中建议索引树高度3--4层，800w--1000w行，20--30个列，会在3--4层之间
数据量特别少，也会有两层，根和叶子
只取大字段的前几个字符，作为索引生成条件

6 关于索引树的高度受什么影响

# 那些因素导致
1. 数据行过多，数据量级大, 解决方法:分区表（分库分表），归档表（一个月生成一个表：手工，pt-archive），分布式架构
2. 索引列值过长 , 解决方法:前缀索引
3. 数据类型:（选择合适的数据类型）
变长长度字符串,使用了char,解决方案:变长字符串使用varchar
enum类型的使用enum ('山东','河北','黑龙江','吉林','辽宁','陕西'......)，enum更加省空间
                                         1      2      3

7 索引的基本管理

7.1 索引建立前

# 什么情况下建索引
按业务语句的需求创建合适的索引，并不是将所有列都建立索引（不是越多越好）
将索引建立在经常where，group by order by join on 的条件
# 为什么不能乱建索引
1 插入，删除数据，都会涉及到索引树的更新，如果冗余索引过多，表的数据变化，可能会导致索引频繁更新，会阻塞正常业务的更新请求
2 索引过多，会导致优化器选择出现偏差，性能可能达不到预想的效果

db01 [world]>desc city; # 查看表的索引情况
+-------------+----------+------+-----+---------+----------------+
| Field      | Type    | Null | Key | Default | Extra          |
+-------------+----------+------+-----+---------+----------------+
| ID          | int(11)  | NO  | PRI | NULL    | auto_increment |
| Name        | char(35) | NO  |    |        |                |
| CountryCode | char(3)  | NO  | MUL |        |                |
| District    | char(20) | NO  |    |        |                |
| Population  | int(11)  | NO  |    | 0      |                |
+-------------+----------+------+-----+---------+----------------+
5 rows in set (0.00 sec)

Field :列名字
key  :有没有索引,索引类型
PRI: 主键索引（聚簇索引）
UNI: 唯一索引，唯一建unique
MUL: 辅助索引(单列,联和,前缀)

show index from city; # 查看更具体的索引信息

7.2 单列普通辅助索引

7.2.1 创建索引，删除索引

### 新建索引
# 方式1 
db01 [world]>alter table city add index idx_name(name);
                          表		    索引名（列名）
# 方式2                                   
db01 [world]>create index idx_name1 on city(name);
# 查看索引
db01 [world]>show index from city;
# 注意:
以上操作不代表生产操作,我们不建议在一个列上建多个索引
同一个表中，索引名不能同名。

##### 删除索引:
db01 [world]>alter table city drop index idx_name1;
                         表名              索引名

7.3 覆盖索引(联合索引)

Master [world]>alter table city add index idx_co_po(countrycode,population);

7.4 前缀索引

db01 [world]>alter table city add index idx_di(district(5));
注意：数字列不能用作前缀索引。

7.5 唯一索引

db01 [world]>alter table city add unique index idx_uni1(name);
ERROR 1062 (23000): Duplicate entry 'San Jose' for key 'idx_uni1'

7.6 查看是否走索引

# explain select * from city where name ='shanghai';
# 图一 type 是all 表示全表扫描
# 图二 type 是ref 表示走了索引

7.7 是否走索引压测

# 1 创建数据库test :create database test charset='utf8';
# 2 导入100w条数据 source t100w.sql
# 3 执行：模仿100个用户，同时查询select * from test.t_100w where k2='780P'，一共执行200次，平均一人两次
mysqlslap --defaults-file=/etc/my.cnf --concurrency=100 --iterations=1 --create-schema='test' --query="select * from test.t100w where k2='780P'" engine=innodb  --number-of-queries=200 -uroot  -verbose

# 4 创建索引再测试：
alter table test.t100w add index idx_name(k2);
Benchmark
	Running for engine rbose
	Average number of seconds to run all queries: 0.084 seconds
	Minimum number of seconds to run all queries: 0.084 seconds
	Maximum number of seconds to run all queries: 0.084 seconds
	Number of clients running queries: 100
	Average number of queries per client: 2
    
# 5 删除索引再测试
alter table test.t100w drop index idx_name;
Benchmark
	Running for engine rbose
	Average number of seconds to run all queries: 51.012 seconds
	Minimum number of seconds to run all queries: 51.012 seconds
	Maximum number of seconds to run all queries: 51.012 seconds
	Number of clients running queries: 100
	Average number of queries per client: 2

8 执行计划获取及分析

8.1 介绍

(1)
获取到的是优化器选择完成的,他认为代价最小的执行计划.
作用: 语句执行前,先看执行计划信息,可以有效的防止性能较差的语句带来的性能问题.
如果业务中出现了慢语句，我们也需要借助此命令进行语句的评估，分析优化方案。
(2) select 获取数据的方法
1. 全表扫描(应当尽量避免,因为性能低)
2. 索引扫描
3. 获取不到数据

8.2 执行计划获取

获取优化器选择后的执行计划

方式一：desc +sql 语句
desc select * from test.t100w;
方式二：explain +sel语句
explain select * from test.t100w;
explain select * from test.t100w\G;

8.3 执行计划分析

8.3.1 重点关注的信息

table: city                              # 查询操作的表 （后期可能多表关联查询）
type:ref                                 # 查询类型 （全表，索引扫描）
possible_keys: CountryCode,idx_co_po     # 可能会走的索引，执行计划会有多种方案
key: CountryCode  					     # 真正走的索引名字，最后优化器选择的
key_len:null                             # 索引覆盖长度
rows:997529                              #查询结果集的长度，此次查询需要扫描的行数
Extra: Using index condition             # 额外信息

desc select country.name,city.name from city join country on city.countrycode=country.code where city.population='CHN'\G;
# city 表没有走索引，type 是all
# 优化一下，给populations字段加索引
alter table city add index idx(population);
# 再看，就走索引了

8.3.2 type详解

简介

type类型：all，index ， range ，ref， eq_ref，const(system)
all：是全表扫描
index ，range ，ref，eq_ref，const(system)是索引扫描，但是顺序从左向右，效率依次提高

ALL

######## 全表扫描的例子######## 
#1 ALL  :  全表扫描,不走索引
desc select * from city；
desc select * from city where 1=1；
desc select * from city where countrycode not in ('chn','usa'); # not in不走索引，in走索引
desc select * from city where countrycode like '%ch%'; # like前后都加%，不走索引，构建索引要排序，前面是百分号，没法排序，遵循最左前缀，左侧要确定
desc select * from city where countrycode !='usa'; # 不等于也会全文扫描

index

######## 索引扫描的例子######## 
# index < range <ref <eq_ref<const(system)
# 2 index:全索引扫描
desc select countrycode from world.city; # countrycode有索引，但是需要扫描整棵索引树

range

# 3 range：索引范围查询
辅助索引> < >= <= LIKE IN OR 
主键 <>  NOT IN

desc select * from city where id <10;
desc select * from city where countrycode like 'CH%';
desc select * from city where countrycode in ('CHN','USA');
# 改写后，变成ref
desc select * from city where countrycode ='CHN'
union all
select * from city where countrycode ='USA';

# 特殊情况，主键的不等于，not in 是range类型
desc select * from city where id !=10;# 做成了<10 and >10
desc select * from city where id not in (10,20);

ref

# 辅助索引等值查询  name='er'的情况
desc select * from city where countrycode ='CHN'

eq_ref

# 多表连接中，非驱动表连接条件是主键或唯一键
# A join B on A.xx=B.yy

desc select country.name,city.name from city join country on city.countrycode=country.code where city.population='CHN'\G;
# 非驱动表使用了主键索引

const

唯一索引的等值查询
DESC SELECT * FROM city WHERE id=10;

8.3.3 其他字段解释

possible_keys和key

possible_keys：可能会走的索引，所有和此次查询有关的索引
key：此次查询选择的索引

key_len

# 联合索引覆盖长度
# 对于联合索引：index(a,b,c)，我们希望将来的查询对联合索引用的越充分越好
# key_len 可以帮我们判断，此次查询走了联合索引的几部分

# key_len计算：
select * from t1 where a =  and b= or c=
上面语句完全使用联合索引
key_len=a长度+b长度+c长度

##### 数字类型
          not null约束      没有not null 约束
tinyint    1                  1+1
int        4                  4+1
bigint     8                  8+1
# key_len:
a列 int类型  not null    ----》长度为4
a列 int类型  没有非空约束  ----》长度为5

#### 字符类型：utf8 ----》一个字符最大占3个字节
             not null约束      没有not null 约束
char(10)       3*10              3*10+1
varchar(10)    3*10+2            3*10+2+1
# 选择此列最大字符长度
b列 char(10) not null      ---》30
b列 char(10) 没有非空约束    ---》31
c列 varchar(10) not null   ---》32
c列 varchar(10) 没有非空约   ---》33

# 假设是utf8mb4格式，该如何算？
create table t1(
a int not null,              4
b int,                       5
c char(10) not null,         40  
d varchar(10)                43
)charset =utf8mb4
# index(a,b,c,d)
# 问：查询中完全覆盖到4列索引，key_len是多少？  92

# 测试：新建表，建立4列索引，
desc select * from t1 where a =1  and b=2 or c='a' and d='c';  92
desc select * from t1 where a =1 ; 4 
# 通过数字可以判断是否完全走了索引

rows

# 评估查询需要扫描的数据行数

extra

# 如果出现useing filesort:表示此次查询使用到了文件排序，说明在查询中的排序操作(查询语句中有如下语句，索引应用的不是特别合理)：order by，group by ，distinct...
DESC SELECT * FROM city WHERE countrycode='CHN'  ORDER BY population 
# 可以看到使用了额外的排序

# 需要将countrycode和population建立联合索引，再次查询就没有useing filesort了，在索引里排好序了


结论: 
1.当我们看到执行计划extra位置出现filesort,说明由文件排序出现
2.观察需要排序(ORDER BY,GROUP BY ,DISTINCT )的条件,有没有索引
3.根据子句的执行顺序,去创建联合索引

8.3.4 explain(desc)使用场景

题目意思: 我们公司业务慢,请你从数据库的角度分析原因
1.mysql出现性能问题,我总结有两种情况:
（1）应急性的慢：突然夯住
应急情况:数据库hang(卡了,资源耗尽)
处理过程:
1. show processlist;  获取到导致数据库hang的语句
2. explain 分析SQL的执行计划,有没有走索引,索引的类型情况
3. 建索引,改语句

（2）一段时间慢(持续性的):
(1)记录慢日志slowlog,分析slowlog
(2)explain 分析SQL的执行计划,有没有走索引,索引的类型情况
(3)建索引,改语句

实际业务中的排查：
1、mysql是放到其他服务器上的，首先排查网络延迟问题
2、数据量越来越大（不管是否建索引，数据量大一定会慢）
3、这条sql没有走索引
    sql不走索引，就是全表扫描 如：select * from user where name='lqz',如果name字段没有建索引，这句查询就是全表扫描，一旦数据量达到万级，全表扫描就很慢了。
    解决方式，给name列建辅助索引
    如果批量删除了一些数据，可能导致索引失效，因此导致了sql没有走索引
4、mysql到最大连接数了
5、锁表了

9 索引应用规范

业务
1.产品的功能
2.用户的行为
"热"查询语句 --->较慢--->slowlog
"热"数据

9.1 建立索引的原则（DBA运维规范）

9.1.0 说明

为了使索引的使用效率更高，在创建索引时，必须考虑在哪些字段上创建索引和创建什么类型的索引。那么索引设计原则又是怎样的?

9.1.1 (必须的) 建表时一定要有主键,一般是个无关列

一定要有主键，数字列最好，无关业务

9.1.2 选择唯一性索引

唯一性索引的值是唯一的，可以更快速的通过该索引来确定某条记录。
例如，学生表中学号是具有唯一性的字段。为该字段建立唯一性索引可以很快的确定某个学生的信息。
如果使用姓名的话，可能存在同名现象，从而降低查询速度。

优化方案:
(1) 如果非得使用重复值较多的列作为查询条件(例如:男女),可以将表逻辑拆分
(2) 可以将此列和其他的查询类,做联和索引
(3) 联合索引，要把重复值少的放在最左侧
select count(*) from world.city;
select count(distinct countrycode) from world.city;
select count(distinct countrycode,population ) from world.city;

9.1.3(必须的) 为经常需要where 、ORDER BY、GROUP BY, join on等操作的字段建立索引

排序操作会浪费很多时间。
where  A B C      ----》 A  B  C
in 
where A group by B order by C
A,B，C

如果为其建立索引，优化查询
注：如果经常作为条件的列，重复值特别多，可以建立联合索引。

9.1.4 尽量使用前缀来索引

如果索引字段的值很长，最好使用值的前缀来索引，减少索引树高度

9.1.5 限制索引的数目

索引的数目不是越多越好。
可能会产生的问题:
(1) 每个索引都需要占用磁盘空间，索引越多，需要的磁盘空间就越大。
(2) 修改表时，对索引的重构和更新很麻烦。越多的索引，会使更新表变得很浪费时间。
(3) 优化器的负担会很重,有可能会影响到优化器的选择.
percona-toolkit中有个工具,专门分析索引是否有用

9.1.6 删除不再使用或者很少使用的索引(percona toolkit)

pt-duplicate-key-checker

表中的数据被大量更新，或者数据的使用方式被改变后，原有的一些索引可能不再需要。数据库管理
员应当定期找出这些索引，将它们删除，从而减少索引对更新操作的影响。

9.1.7 大表加索引,要在业务不繁忙期间操作

9.1.8 尽量少在经常更新值的列上建索引

9.1.9 建索引原则

(1) 必须要有主键,如果没有可以做为主键条件的列,创建无关列
(2) 经常做为where条件列  order by  group by  join on, distinct 的条件(业务:产品功能+用户行为)
(3) 最好使用唯一值多的列作为索引,如果索引列重复值较多,可以考虑使用联合索引
(4) 列值长度较长的索引列,我们建议使用前缀索引.
(5) 降低索引条目,一方面不要创建没用索引,不常使用的索引清理,percona toolkit(xxxxx)
(6) 索引维护要避开业务繁忙期

9.2 不走索引的情况（开发规范）

9.2.1 没有查询条件，或者查询条件没有建立索引

select * from tab;       全表扫描。
select  * from tab where 1=1;
在业务数据库中，特别是数据量比较大的表。
是没有全表扫描这种需求。
1、对用户查看是非常痛苦的。
2、对服务器来讲毁灭性的。
（1）
select * from tab;
SQL改写成以下语句：
select  * from  tab  order by  price  limit 10 ;    需要在price列上建立索引
（2）
select  * from  tab where name='zhangsan'          name列没有索引
改：
1、换成有索引的列作为查询条件
2、将name列建立索引

9.2.2 查询结果集是原表中的大部分数据，应该是25％以上

查询的结果集，超过了总数行数25%，优化器觉得就没有必要走索引了。

假如：tab表 id，name    id:1-100w  ，id列有(辅助)索引
select * from tab  where id>500000;
如果业务允许，可以使用limit控制。
怎么改写 ？
结合业务判断，有没有更好的方式。如果没有更好的改写方案
尽量不要在mysql存放这个数据了。放到redis里面。

9.2.3 索引本身失效，统计数据不真实

索引有自我维护的能力。
对于表内容变化比较频繁的情况下，统计信息不准确，过旧，有可能会出现索引失效。
一般是删除重建
# 统计信息

现象:
有一条select语句平常查询时很快,突然有一天很慢,会是什么原因
select?  --->索引失效,，统计数据不真实，大量修改，删除性的操作
DML ?   --->锁冲突
解决：
重建索引，优化表

# 统计信息放在了mysql数据库的，数据改了，记录的统计信息不真实，会导致索引失效
innodb_index_stats      
innodb_table_stats
select * from innodb_table_stats;
# 有哪个库，哪个表，上次更新时间，数据行数，聚簇索引大小，辅助索引大小等
假设我们删除一部分数据，这个记录不是实时更新的
delete from city where id=100;
# 再查看，行数不变，可以使用如下两条命令：优化表
optimize table world.city;
alter table world.city engine=innodb;
# 再查看就更新了

9.2.4 查询条件使用函数在索引列上，或者对索引列进行运算，运算包括(+，-，*，/，! 等)

例子：
错误的例子：select * from test where id-1=9;
正确的例子：select * from test where id=10;
算术运算
函数运算
子查询

9.2.5 隐式转换导致索引失效.这一点应当引起重视.也是开发中经常会犯的错误

这样会导致索引失效. 错误的例子：
# 创建表
create table tab(id int,telnum char(11)); 
# 给telnum增加索引
mysql> alter table tab add index inx_tel(telnum);
# 查看
mysql> desc tab;
# 查询数据
mysql> select * from tab where telnum='1333333';
mysql> select * from tab where telnum=1333333;
# 分析
# 走索引
mysql> explain  select * from tab where telnum='1333333';
# 不走索引（出现了隐士转换，做了函数运算）
mysql> explain  select * from tab where telnum=1555555;

9.2.6 <> ，not in 不走索引（辅助索引）

# <>  ，not in 不走索引，但是对于主键走range索引
EXPLAIN  SELECT * FROM teltab WHERE telnum  <> '110';
EXPLAIN  SELECT * FROM teltab WHERE telnum  NOT IN ('110','119');

mysql> select * from tab where telnum <> '1555555';
mysql> explain select * from tab where telnum <> '1555555';

单独的>,<,in 有可能走，也有可能不走，和结果集有关（当查询结果集超过25%，也会不走索引），尽量结合业务添加limit
or或in  尽量改成union
EXPLAIN  SELECT * FROM teltab WHERE telnum  IN ('110','119');
改写成：
EXPLAIN SELECT * FROM teltab WHERE telnum='110'
UNION ALL
SELECT * FROM teltab WHERE telnum='119'

9.2.7 like “%_” 百分号在最前面不走

EXPLAIN SELECT * FROM teltab WHERE telnum LIKE '31%'  走range索引扫描
EXPLAIN SELECT * FROM teltab WHERE telnum LIKE '%110'  不走索引
%linux%类的搜索需求，可以使用elasticsearch+mongodb 专门做搜索服务的数据库产品
十扩展:优化器针对索引的算法

10扩展: 优化器针对索引的算法

10.1 mysql索引的自优化-AHI

# 自适应哈希索引：AHI，自动统计索引页使用情况，内存中放在buffer pool中，可能会在内存回收的情况下，把经常使用的索引页回收（置换）掉（这是我们不希望看到的），我们需要把热的索引页，生成一个hash表的类型，存到AHI中

# 自带的，自优化能力

# 作用:自动评估 ’热‘的内存索引page，生成hash索引表，帮助innodb快速读取索引页，加速索引读取速度

10.2 mysql索引的自优化-Change buffer

比如insert，update，delete 数据
对于聚簇索引会立即更新
对于辅助索引，不是实时更新
在innodb内存结构中，加入了insert buffer（会话），现在的版本叫change buffer
change buffer的功能是临时缓冲辅助索引需要的数据更新
当我们要查询新insert的数据，会在内存中进行merge(合并)操作，此时辅助索引就是最新的

每个会话都分一个，可以调整，但是不能调太大

以上是（AHI，Change buffer）自优化能力，不需要单独配置，下面的是优化算法

show variables like '%switch%';
select @@optimizer_switch\G;
# 如下算法
index_merge=on,
index_merge_union=on,
index_merge_sort_union=on,
index_merge_intersection=on,
engine_condition_pushdown=on,
index_condition_pushdown=on,  # 索引下推
mrr=on,
mrr_cost_based=on,  #
block_nested_loop=on, #
batched_key_access=off, #
materialization=on,
semijoin=on,
loosescan=on,
firstmatch=on,
duplicateweedout=on,
subquery_materialization_cost_based=on,
use_index_extensions=on,
condition_fanout_filter=on,
derived_merge=on

# 如何修改？
方式一：
配置文件my.cnf
方式二：
set global optimizer_switch='index_condition_pushdown=on,mrr_cost_based=on';
set global optimizer_switch='batched_key_access=on';
# 重启会话，退出重连
方式三：单独给某个语句开
BKA hins方式
https://dev.mysql.com/doc/relnotes/mysql/5.7/en/news-5-7-7.html
  
SELECT /*+ NO_RANGE_OPTIMIZATION(t3 PRIMARY, f2_idx) */ f1
  FROM t3 WHERE f1 > 30 AND f1 < 33;
SELECT /*+ BKA(t1) NO_BKA(t2) */ * FROM t1 INNER JOIN t2 WHERE ...;
SELECT /*+ NO_ICP(t1, t2) */ * FROM t1 INNER JOIN t2 WHERE ...;
EXPLAIN SELECT /*+ NO_ICP(t1) */ * FROM t1 WHERE ...;

10.3 ICP：索引下推

# 原理：
select 查询语句在sql层解析后，由优化器选择好方案，进入引擎层后，再由引擎层进行一次过滤，过滤好后再访问硬盘的页的数据
ICP是在引擎层又进行一次过滤，把索引优化的能力，下推到了引擎层
# 作用：
减少无关数据页的扫描，最大程度使用索引,解决了联合索引只能部分应用的情况
将不走索引的条件，在engine层取出数据之前做二次过滤
过滤掉一些无关数据

### 举个例子
假设有索引：index(a,b,c)  、
查询数据：select * from t1 where a= and c =
正常是在server层通过优化器优化，只能走a的索引，所以查a的数据走了索引，查c的数据还需要再全表扫描，这样导致扫描数据量很大（a走索引，c在a的结果集上走全表）
通过ICP，把索引优化下推到引擎层，在引擎层再做一次过滤，得到更少量的数据，从而提高io速度（本来是要拿出满足a条件的数据，然后在结果集上过滤c，现在拿出a的数据集之前再做一次过滤，数据集更少，然后再过滤c条件）

没有ICP的情况

server 层在做完索引优化以后，需要去磁盘上取4个数据页（红色的），但是实际上满足条件的只有一个，没有icp会多余读取3个没用的数据页

有ICP的情况

server 层在做完索引优化以后，需要去磁盘上取4个数据页（红色的），但是实际上满足条件的只有一个，到达engin层后，再做一次过滤，发现满足条件的只有一个页，所以，只取有用的那个页（其实就是引擎层又加了一个判断，减少无关数据页的扫描）

10.4 MRR-multi range read

mrr=on, # 开启
mrr_cost_based=on,  #关闭，是否通过cost base的方式来启用MRR，由系统判断是否值得，我们关闭
set global optimizer_switch='mrr=on,mrr_cost_based=off';

# 原理
范围查询 （大于，小于）
like查询
有重复值
从辅助索引得到一个id值就要回表一次
在回表之前，先把id预存一下（缓冲区），排一下序（sort id），最后一次性回表（这样有顺序的就可以通过B+树的neighbour直接顺序取）

mrr之前

mrr之后

11 问题汇总

11.1 怎样减少回表

联合索引

11.2 更新数据时，会对索引有影响吗，数据的变化索引实时更新吗？

insert delete一行数据
聚簇索引会立即更新
辅助索引不是实时更新
update 一行数据
看是不是更新辅助索引字段（聚簇索引字段不会改），辅助索引不会立即变化

# 补充
在InnoDB内存结构中（内存空间），加入了insert buffer（会话缓冲区），现在叫change buffer
原来主要针对insert操作，现在修改插入删除都会走

1 聚簇索引，辅助索引，数据都在磁盘上存，innodb 存到ibd(表空间文件:有段，区，页)文件中
2 当去查询select * from t1 where name='zs',会把辅助索引的数据页加载到内存（buffer pool）
3 回表，需要聚簇索引，也加载到内存中
4 新录入数据，会更新聚簇索引，立即更新到磁盘
5 对于辅助索引，不是立即更新，先把变更放到change buffer（独立内存区域）中，这样磁盘上的辅助索引是旧数据
6 假设要读新插入的一行，mysql会在内存中把change buffer中的变更的辅助索引和原来内存中的辅助索引merge（合并）一下，这个过程叫index merge（在内存中合并到一起）
7 这样搜新插入的数据，是能搜到的
8 辅助索引没有实时更新，减少了更新的频次
9 当有查询操作查询这条数据后，辅助索引的数据会落到磁盘上（因为有查询需求）
10 一旦涉及到更新磁盘，就会有一定程度的阻塞
11 每个会话（每个链接上来）都会有一个change buffer，大小可以调，通过调change buffer来优化大量的update和删除等操作
12 当我们要查询新insert的数据，会在内存中将辅助索引合并，这样辅助索引就是最新的了（就是为了减少频繁磁盘更新）

posted @ 2022-12-15 16:50 不会钓鱼的猫阅读(272) 评论(0) 收藏举报

刷新页面返回顶部

Just so so