重温系列一之Mysql索引

来源自己以往有道笔记:https://note.youdao.com/s/F0qv9oxw

Mysql索引
索引的出现其实就是为了提高数据查询的效率,就像书的目录一样
1. 索引类型
索引可以提升查询速度,会影响where查询,以及order by排序。
 
MySQL索引类型如下:
从索引存储结构划分:B Tree索引、 Hash索引、 FULLTEXT全文索引、 R Tree索引
从应用层次划分:普通索引、唯一索引、主键索引、复合索引
从索引键值类型划分:主键索引、辅助索引(二级索引)
从数据存储和索引键值逻辑关系划分:聚集索引(聚簇索引)、非聚集索引(非聚簇索引)
1.1 普通索引
这是最基本的索引类型,基于普通字段建立的索引,没有任何限制。
创建普通索引的方法如下:
创建普通索引: CREATE INDEX <索引的名字> ON tablename (字段名); 修改表结构(添加索引) ALTER TABLE tablename ADD INDEX [索引的名字] (字段名); 创建表时直接指定 CREATE TABLE tablename ( [...], INDEX [索引的名字] (字段名) );
1.2 唯一索引
与"普通索引"类似,不同的就是:索引字段的值必须唯一,但允许有空值 。在创建或修改表时追加唯一 约束,就会自动创建对应的唯一索引。
创建唯一索引的方法如下:
CREATE UNIQUE INDEX <索引的名字> ON tablename (字段名); ALTER TABLE tablename ADD UNIQUE INDEX [索引的名字] (字段名); CREATE TABLE tablename ( [...], UNIQUE [索引的名字] (字段名) ;
1.3 主键索引
它是一种特殊的唯一索引,不允许有空值。在创建或修改表时追加主键约束即可,每个表只能有一个主键。
创建主键索引的方法如下:
CREATE TABLE tablename ( [...], PRIMARY KEY (字段名) ); ALTER TABLE tablename ADD PRIMARY KEY (字段名);
1.4 复合索引
单一索引是指索引列为一列的情况,即新建索引的语句只实施在一列上;用户可以在多个列上建立索引,这种索引叫做组复合索引(组合索引、联合索引)。复合索引可以代替多个单一索引,相比多个单一索引 复合索引所需的开销更小。
索引同时有两个概念叫做窄索引和宽索引,窄索引是指索引列为1-2列的索引,宽索引也就是索引列超过2列的索引,设计索引的一个重要原则就是能用窄索引不用宽索引,因为窄索引往往比组合索引更有效。
创建组合索引的方法如下:
CREATE INDEX <索引的名字> ON tablename (字段名1 ,字段名2...); ALTER TABLE tablename ADD INDEX [索引的名字] (字段名1 ,字段名2...); CREATE TABLE tablename ( [...], INDEX [索引的名字] (字段名1 ,字段名2...) );
复合索引使用注意事项:
  1. 复合索引字段是有顺序的,在查询使用时要按照索引字段的顺序使用。
例如select * from user where name=xx and age=xx ,匹配(name,age)组合索引,不匹配(age)。
  1. 何时使用复合索引,要根据where条件建索引,注意不要过多使用索引,过多使用会对更新操作效率有很大影响。
如果表已经建立了(col1,col2) ,就没有必要再单独建立( col1 );如果现在有(col1)索引,如果查询需要col1和col2条件,可以建立(col1,col2)复合索引,对于查询有一定提高。
1.5 全文索引
查询操作在数据量比较少时,可以使用like模糊查询,但是对于大量的文本数据检索,效率很低。如果使用全文索引,查询速度会比like快很多倍。在MySQL 5.6 以前的版本,只有MyISAM存储引擎支持全文索引,从MySQL 5.6开始MyISAM和InnoDB存储引擎均支持。
创建全文索引的方法如下:
CREATE FULLTEXT INDEX <索引的名字> ON tablename (字段名); ALTER TABLE tablename ADD FULLTEXT [索引的名字] (字段名); CREATE TABLE tablename ( [...], FULLTEXT KEY [索引的名字] (字段名) ;
和常用的like模糊查询不同,全文索引有自己的语法格式,使用 match 和 against 关键字,比如
select * from t_user where match(name) against('aaa'); select * from fulltext_test where match(content,tag) against('xxx xxx');
全文索引使用注意事项:
  1. 全文索引必须在字符串、文本字段上建立
  2. 全文索引字段值必须在最小字符和最大字符之间的才会有效。( innodb:3-84 ;myisam:4-84 )
  3. 全文索引字段值要进行切词处理,按syntax字符进行切割,例如b+aaa ,切分成b和aaa
  4. 全文索引匹配查询,默认使用的是等值匹配,例如a匹配a ,不会匹配ab,ac。如果想匹配可以在布尔模式下搜索a*
select * from t_user where match(name) against('a*' in boolean mode);
2. 索引原理
MySQL官方对索引定义:是存储引擎用于快速查找记录的一种数据结构。需要额外开辟空间和数据维护工作。
索引是物理数据页存储,在数据文件中( InnoDB ,ibd文件),利用数据页(page)存储。索引可以加快检索速度,但是同时也会降低增删改操作速度,索引维护需要代价。(注意:一个数据页默认大小16k)
索引涉及的理论知识:二分查找法、 Hash和B+Tree。
2.1 二分查找法
二分查找法也叫作折半查找法,它是在有序数组中查找指定数据的搜索算法。它的优点是等值查询、范围查询性能优秀,缺点是更新数据、新增数据、删除数据维护成本高。
方法:首先定位left和right两个指针计算(left+right)/2,判断除2后索引位置值与目标值的大小比对,索引位置值大于目标值就-1 ,right移动;如果小于目标值就+1 ,left移动
限制:有序有界有下标.
 
举个例子,下面的有序数组有17 个值,查找的目标值是7 ,过程如下:
第一次查找:
0
第二次查找:
0
第三次查找:
0
第四次查找:
0
2.2 Hash结构
Hash底层实现是由Hash表来实现的,是根据键值 <key,value> 存储数据的结构。非常适合根据key查找value值,也就是单个key查询,或者说等值查询。其结构如下所示:
0
从上面结构可以看出, Hash索引可以方便的提供等值查询,但是对于范围查询就需要全表扫描了。Hash索引在MySQL 中Hash结构主要应用在Memory原生的Hash索引 、 InnoDB 自适应哈希索引。
InnoDB提供的自适应哈希索引功能强大,接下来重点描述下InnoDB 自适应哈希索引。
InnoDB自适应哈希索引是为了提升查询效率, InnoDB存储引擎会监控表上各个索引页的查询,当 InnoDB注意到某些索引值访问非常频繁时,会在内存中基于B+Tree索引再创建一个哈希索引,使得内存中的 B+Tree 索引具备哈希索引的功能,即能够快速定值访问频繁访问的索引页。
InnoDB自适应哈希索引:在使用Hash索引访问时,一次性查找就能定位数据,等值查询效率要优于 B+Tree。
自适应哈希索引的建立使得InnoDB存储引擎能自动根据索引页访问的频率和模式自动地为某些热点页 建立哈希索引来加速访问。另外InnoDB自适应哈希索引的功能,用户只能选择开启或关闭功能,无法进行人工干涉。
show engine innodb status \G; show variables like '%innodb_adaptive%';
2.3 B+Tree结构(重点)
MySQL数据库索引采用的是B+Tree结构,在B-Tree结构上做了优化改造。
2.3.1 B-Tree结构(B树)
  • 索引值和data数据分布在整棵树结构中
  • 每个节点可以存放多个索引值及对应的data数据
  • 树节点中的多个索引值从左到右升序排列
0
B树的搜索:从根节点开始,对节点内的索引值序列采用二分法查找,如果命中就结束查找。没有 命中会进入子节点重复查找过程,直到所对应的的节点指针为空,或已经是叶子节点了才结束。
2.3.2 B+Tree结构
  • 非叶子节点不存储data数据,只存储索引值,这样便于存储更多的索引值
  • 叶子节点包含了所有的索引值和data数据
  • 叶子节点用指针连接,提高区间的访问性能
0
相比B树, B+树进行范围查找时,只需要查找定位两个节点的索引值,然后利用叶子节点的指针进行遍历即可。而B树需要遍历范围内所有的节点和数据,显然B+Tree效率高。
问:为什么数据库存储使用b+树 而不是二叉树?
因为二叉树树高过高,每次查询都需要访问过多节点,即访问数据块过多造成磁盘IO过多影响性能。 b+树的一次随机io能拿出更多的数据。
问:N叉数的N是多少?
以 InnoDB 的一个整数字段索引为例,这个 N 差不多是 1200。MySql默认一个page为16K,一个整数(bigint)字段索引的长度为 8B(8个字节,8Byte),另外每个索引还跟着6B的指向其子树的指针;所以16K/14B ≈ 1170。
这棵树高是 4 的时候,就可以存 1200 的 3 次方个值,这已经 17 亿了。考虑到树根的数据块总是在内存中的,一个 10 亿行的表上一个整数字段的索引,查找一个值最多只需要访问 3 次磁盘。其实树的第二层也有很大概率在内存中,那么访问磁盘的平均次数就更少了。
2.4 聚簇索引和辅助索引
聚簇索引和非聚簇索引:B+Tree的叶子节点存放主键索引值和行记录(放一起)就属于聚簇索引;如果索引值和行记录分开存放就属于非聚簇索引。InnoDB索引值和数据在一起为聚簇索引结构,MyISAM数据表的索引文件和数据文件是分开的,被称为非聚簇索引结构。
主键索引和辅助索引:B+Tree的叶子节点存放的是主键字段值就属于主键索引;如果存放的是非主键值 就属于辅助索引(二级索引)。
 
2.4.1聚簇索引(聚集索引)
聚簇索引是一种数据存储方式, 在InnoDB引擎中,主键索引采用的就是聚簇索引结构存储。InnoDB的聚簇索引就是按照主键顺序构建 B+Tree结构。B+Tree的叶子节点就是行记录,行记录和主键值紧凑地存储在一起。这也意味着 InnoDB 的主键索引就是数据表本身,它按主键顺序存放了整张表的数据,占用的空间就是整个表数据量的大小。通常说的主键索引就是聚集索引。
 
InnoDB的表要求必须要有聚簇索引:
a. 如果表定义了主键,则主键索引就是聚簇索引
b. 如果表没有定义主键,则第一个非空unique列作为聚簇索引
c. 否则InnoDB会从建一个隐藏的row-id作为聚簇索引
2.4.2辅助索引
InnoDB辅助索引,也叫作二级索引,是根据索引列构建 B+Tree结构。但在 B+Tree 的叶子节点中只存了索引列和主键的信息。二级索引占用的空间会比聚簇索引小很多, 通常创建辅助索引就是为了提升查询效率。一个表InnoDB只能创建一个聚簇索引,但可以创建多个辅助索引。
0
2.4.3非聚簇索引
与InnoDB表存储不同, MyISAM数据表的索引文件和数据文件是分开的,被称为非聚簇索引结构。
 
0
3.索引分析与优化
3.1 EXPLAIN
EXPLAIN 命令,它可以对 SELECT 语句进行分析,并输出 SELECT 执行的详细信 息,供开发人员有针对性的优化。例如:
EXPLAIN SELECT * from user WHERE id < 3;
EXPLAIN 命令的输出内容大致如下:
0
id
id可以认为是查询序列号,每一个id代表一个select,一句sql有两个select,就会有两行数据,两个id,不同的id代表不同的子查询。
  • id相同执行顺序由上至下。
  • id不同,id值越大优先级越高,越先被执行。
  • id为NULL最后执行。
select_type
表示查询的类型。常用的值如下:
  • SIMPLE : 表示查询语句不包含子查询或union
  • PRIMARY :表示此查询是最外层的查询
  • UNION :表示此查询是UNION的第二个或后续的查询
  • DEPENDENT UNION :UNION中的第二个或后续的查询语句,使用了外面查询结果
  • UNION RESULT :UNION的结果
  • SUBQUERY:SELECT子查询语句
  • DEPENDENT SUBQUERY:SELECT子查询语句依赖外层查询的结果。
最常见的查询类型是SIMPLE ,表示我们的查询没有子查询也没用到UNION查询。
type
表示存储引擎查询数据时采用的方式。比较重要的一个属性,通过它可以判断出查询是全表扫描还 是基于索引的部分扫描。
性能由好到差的连接类型为:system、const、eq_ref、ref、ref_or_null、index_merge、unique_subquery、index_subquery、range、index、all等,至少要达到range级别。
 
常用属性值如下,从上至下效率依次增强。
  • ALL :表示全表扫描,性能最差。
  • index :表示基于索引的全表扫描,先扫描索引再扫描全表数据。
  • range :表示使用索引范围查询。使用>、>=、<、<=、in等等。
  • ref :表示使用非唯一索引进行单值查询。
  • eq_ref :一般情况下出现在多表join查询,表示前面表的每一个记录,都只能匹配后面表的一行结果。
  • const :表示使用主键或唯一索引做等值查询,常量查询。
  • system : 表中仅有一行,即常量表 。
  • NULL :表示不用访问表,速度最快。
possible_keys
表示查询时能够使用到的索引。注意并不一定会真正使用,显示的是索引名称。
key
表示查询时真正使用到的索引,显示的是索引名称。
rows
MySQL查询优化器会根据统计信息,估算SQL要查询到结果需要扫描多少行记录。原则上rows是越少效率越高,可以直观的了解到SQL效率高低。
key_len
表示查询使用了索引的字节数量。可以判断是否全部使用了组合索引。
key_len的计算规则如下:
  • 字符串类型
字符串长度跟字符集有关:latin1=1、gbk=2、utf8=3、utf8mb4=4
char(n) :n*字符集长度
varchar(n) :n * 字符集长度 + 2字节
  • 数值类型
TINYINT:1个字节
SMALLINT:2个字节
MEDIUMINT:3个字节
INT、 FLOAT:4个字节
BIGINT、 DOUBLE:8个字节
  • 时间类型
DATE:3个字节
TIMESTAMP:4个字节
DATETIME:8个字节
  • 字段属性
NULL属性占用1个字节,如果一个字段设置了NOT NULL ,则没有此项。
Extra 额外
Extra表示很多额外的信息,各种操作会在Extra提示相关信息,常见几种如下:
  • Using where
索引(age,name) select salary,age name from t;进行回表
表示查询需要通过索引回表查询数据。
  • Using index
索引(age,name) select id,age, name from t;可以使用覆盖索引
表示查询需要通过索引,索引就可以满足所需数据。
  • Using filesort
表示查询出来的结果需要额外排序,数据量小在内存,大的话在磁盘,因此有Using filesort 建议优化。
  • Using temprorary
查询使用到了临时表,一般出现于去重、分组等操作。
 
3.2 回表查询
在之前介绍过, InnoDB索引有聚簇索引和辅助索引。聚簇索引的叶子节点存储行记录, InnoDB必须要有,且只有一个。辅助索引的叶子节点存储的是主键值和索引字段值,通过辅助索引无法直接定位行记录,通常情况下,需要扫码两遍索引树。先通过辅助索引定位主键值,然后再通过聚簇索引定位行记录,这就叫做回表查询 ,它的性能比扫一遍索引树低。
 
总结:通过索引查询主键值,然后再去聚簇索引查询记录信息
3.3覆盖索引
在SQL-Server官网的介绍如下:
0
在MySQL官网,类似的说法出现在explain查询计划优化章节,即explain的输出结果Extra字段为Using index时,能够触发索引覆盖。
0
不管是SQL-Server官网,还是MySQL官网,都表达了:只需要在一棵索引树上就能获取SQL所需的所有列数据,无需回表,速度更快,这就叫做索引覆盖。
 
实现索引覆盖最常见的方法就是:将被查询的字段,建立到组合索引。(可不包含主键)
事例:
select id,name,sex from t_user where name='shenjian'; select id,name,sex from t_user order by name limit 500,100; 将单列索引(name)升级为联合索引(name, sex),即可避免回表将单列索引(name)升级为联合索引(name, sex),即可避免回表将单列索引(name)升级为联合索引(name, sex),即可避免回表将单列索引(name)升级为联合索引(name, sex),即可避免回表单列索引(name)升级为联合索引(name, sex),即可避免回表
将单列索引(name)升级为联合索引(name, sex),即可避免回表。
3.4 最左前缀原则
复合索引使用时遵循最左前缀原则,最左前缀顾名思义,就是最左优先,即查询中使用到最左边的列, 那么查询就会使用到索引,如果从索引的第二列开始查找,索引将失效。
0
3.5 LIKE查询
面试题:MySQL在使用like模糊查询时,索引能不能起作用?
回答:
  1. 索引未覆盖的情况下,只要like后需要匹配的字段前加%,索引就会失效。但是后面加%,能使用索引。
  • select * from user where name like '%o%'; //不起作用
  • select * from user where name like 'o%'; //起作用
  • select * from user where name like '%o'; //不起作用
  1. 索引覆盖的情况下,like无论什么情况都会使用索引。
3.6 NULL查询
面试题:如果MySQL表的某一列含有NULL值,那么包含该列的索引是否有效?
对MySQL来说, NULL是一个特殊的值,从概念上讲, NULL意味着“一个未知值” ,它的处理方式与其他值有些不同。比如:不能使用=,<,>这样的运算符,对NULL做算术运算的结果都是NULL,count(字段)时不会包括NULL行等, NULL比空字符串需要更多的存储空间等。
 
“NULL columns require additional space in the row to record whether their values are NULL. For MyISAM tables, each NULL column takes one bit extra, rounded up to the nearest byte. ”
 
NULL列需要增加额外空间来记录其值是否为NULL。对于MyISAM表,每一个空列额外占用一位,四舍五入到最接近的字节。
0
虽然MySQL可以在含有NULL的列上使用索引,但NULL和其他数据还是有区别的,不建议列上允许为 NULL。最好设置NOT NULL ,并给一个默认值,比如0和 ‘’ 空字符串等,如果是datetime类型,也可以 设置系统当前时间或某个固定的特殊值,例如'1970-01-01 00:00:00'。
3.7 索引与排序
MySQL查询支持filesort和index两种方式的排序, filesort是先把结果查出,然后在缓存或磁盘进行排序操作,效率较低。使用index是指利用索引自动实现排序,不需另做排序操作,效率会比较高。
 
filesort有两种排序算法:双路排序和单路排序。
  • 双路排序:需要两次磁盘扫描读取,最终得到用户数据。第一次将排序字段读取出来,然后排序;第二次去读取其他字段数据。
  • 单路排序:从磁盘查询所需的所有列数据,然后在内存排序将结果返回。如果查询数据超出缓存sort_buffer ,会导致多次磁盘读取操作,并创建临时表,最后产生了多次IO ,反而会增加负担。解决方案:少使用select * ;增加sort_buffer_size容量和max_length_for_sort_data容量。
 
如果我们Explain分析SQL ,结果中Extra属性显示Using filesort ,表示使用了filesort排序方式,需要优化。如果Extra属性显示Using index时,表示覆盖索引,也表示所有操作在索引上完成,也可以使用 index排序方式,建议大家尽可能采用覆盖索引。
 
以下几种情况,会使用index方式的排序。
-- ORDER BY 子句索引列组合满足索引最左前列 explain select id from user order by id; //对应(id)、 (id,name)索引有效 -- WHERE子句+ORDER BY子句索引列组合满足索引最左前列 explain select id from user where age=18 order by name; //对应(age,name)索引
以下几种情况,会使用filesort方式的排序。
--对索引列同时使用了ASC和DESC explain select id from user order by age asc,name desc; //对应(age,name)索引 --WHERE子句和ORDER BY子句满足最左前缀,但where子句使用了范围查询(例如>、<、in等) explain select id from user where age>10 order by name; //对应(age,name)索引 --ORDER BY或者WHERE+ORDER BY索引列没有满足索引最左前列 explain select id from user order by name; //对应(age,name)索引 --使用了不同的索引, MySQL每次只采用一个索引, ORDER BY涉及了两个索引 explain select id from user order by name,age; //对应(name)、 (age)两个索引 --WHERE子句与ORDER BY子句,使用了不同的索引 explain select id from user where name='tom' order by age; //对应 (name)、 (age)索引 --WHERE子句或者ORDER BY子句中索引列使用了表达式,包括函数表达式 explain select id from user order by abs(age); //对应(age)索引
3.8 主键选择
推荐小的自增数字。 因为有序,占用空间小。
0
B+ 树为了维护索引有序性,在插入新值的时候需要做必要的维护。
 
以上面这个图为例,如果插入新的行 ID 值为 700,则只需要在 R5 的记录后面插入一个新记录。
 
如果新插入的 ID 值为 400,就相对麻烦了,需要逻辑上挪动后面的数据,空出位置。而更糟的情况是,如果 R5 所在的数据页已经满了,根据 B+ 树的算法,这时候需要申请一个新的数据页,然后挪动部分数据过去。这个过程称为页分裂
 
除了性能外,页分裂操作还影响数据页的利用率。原本放在一个页的数据,现在分到两个页中,整体空间利用率降低大约 50%。
 
当然有分裂就有合并。当相邻两个页由于删除了数据,利用率很低之后,会将数据页做合并。合并的过程,可以认为是分裂过程的逆过程。
3.9索引失效场景
  • 联合索引不满足最左匹配原则
  • 使用了select *,在联合索引下,尽量使用明确的查询列来趋向于走覆盖索引
  • 索引列参与运算
  • 索引列参使用了函数,索引列参与了函数处理,会导致全表扫描,索引失效
  • 错误的Like使用,%应该在最后才走索引
  • 类型隐式转换,如:字段类型为varchar,但在SQL语句中使用了int类型,导致全表扫描,索引失效
  • 使用OR操作,注意:查询条件使用or关键字,其中一个字段没有创建索引,则会导致整个查询语句索引失效; or两边为“>”和“<”范围查询时,索引失效
  • 两列做比较,两列数据做比较,即便两列都创建了索引,索引也会失效。
  • is not null,查询条件使用is null时正常走索引,使用is not null时,不走索引
  • not in ,查询条件使用not in时,如果是主键则走索引,如果是普通索引,则索引失效
  • not exists ,查询条件使用not exists时,索引失效
  • 不等于比较,查询条件使用不等进行比较时,需要慎重,普通索引会查询结果集占比较大时索引会失效
  • order by,当查询条件涉及到order by、limit等条件时,是否走索引情况比较复杂,而且与Mysql版本有关,通常普通索引,如果未使用limit,则不会走索引。order by多个索引字段时,可能不会走索引。其他情况,建议在使用时进行expain验证
  • 参数不同导致索引失效,当查询条件为大于等于、in等范围查询时,根据查询结果占全表数据比例的不同,优化器有可能会放弃索引,进行全表扫描
  • 其他,Mysql优化器的其他优化策略,比如优化器认为在某些情况下,全表扫描比走索引快,则它就会放弃索引。如果没办法准确把握,则可直接执行explain进行验证。
4.查询优化
4.1 慢查询定位
4.1.1开启慢查询日志
查看 MySQL 数据库是否开启了慢查询日志和慢查询日志文件的存储位置的命令如下:
SHOW VARIABLES LIKE 'slow_query_log%'
通过如下命令开启慢查询日志:
SET global slow_query_log = ON; SET global slow_query_log_file = 'OAK-slow.log'; SET global log_queries_not_using_indexes = ON; SET long_query_time = 10;
long_query_time :指定慢查询的阀值,单位秒。如果SQL执行时间超过阀值,就属于慢查询,记录到日志文件中。
log_queries_not_using_indexes :表示会记录没有使用索引的查询SQL。前提是slow_query_log 的值为ON ,否则不会奏效。
4.1.2查看慢查询日志
  1. 文本方式查看
直接使用文本编辑器打开slow.log日志即可。
0
  • time :日志记录的时间
  • User@Host :执行的用户及主机
  • Query_time :执行的时间
  • Lock_time :锁表时间
  • Rows_sent :发送给请求方的记录数,结果数量
  • Rows_examined :语句扫描的记录条数
  • SET timestamp :语句执行的时间点
  • select.... :执行的具体的SQL语句
  1. 使用mysqldumpslow查看
4.2 慢查询优化
4.2.1索引和慢查询
如何判断是否为慢查询?
MySQL判断一条语句是否为慢查询语句,主要依据SQL语句的执行时间,它把当前语句的执 行时间跟 long_query_time 参数做比较,如果语句的执行时间 > long_query_time ,就会把 这条执行语句记录到慢查询日志里面。long_query_time 参数的默认值是 10s ,该参数值可以根据自己的业务需要进行调整。
 
如何判断是否应用了索引?
SQL语句是否使用了索引,可根据SQL语句执行过程中有没有用到表的索引,可通过 explain 命令分析查看,检查结果中的 key 值,是否为NULL。
 
应用了索引是否一定快?
下面我们来看看下面语句的 explain 的结果,你觉得这条语句有用上索引吗?比如
select * from user where id>0;
虽然使用了索引,但是还是从主键索引的最左边的叶节点开始向右扫描整个索引树,进行了 全表扫描,此时索引就失去了意义。
而像 select * from user where id = 2; 这样的语句,才是我们平时说的使用了索引。它表示的意思是,我们使用了索引的快速搜索功能,并且有效地减少了扫描行数。
查询是否使用索引,只是表示一个SQL语句的执行过程;而是否为慢查询,是由它执行的时间决定 的,也就是说是否使用了索引和是否是慢查询两者之间没有必然的联系。
我们在使用索引时,不要只关注是否起作用,应该关心索引是否减少了查询扫描的数据行数,如果扫描行数减少了,效率才会得到提升。对于一个大表,不止要创建索引,还要考虑索引过滤性,过滤性好,执行速度才会快。
4.2.2提高索引过滤性
假如有一个5000万记录的用户表,通过sex='男'索引过滤后,还需要定位3000万, SQL执行速度也 不会很快。其实这个问题涉及到索引的过滤性,比如1万条记录利用索引过滤后定位10条、100条、1000条,那他们过滤性是不同的。索引过滤性与索引字段、表的数据量、表设计结构都有关系。
下面我们看一个案例:
表:student字段:id,name,sex,age造数据:
insert into student (name,sex,age) select name,sex,age from student;
SQL案例:
select * from student where age=18 and name like '张%'; (全表扫描)
优化1
alter table student add index(name); //追加name索引
优化2
alter table student add index(age,name); //追加age,name索引
优化3
#为user表添加first_name虚拟列,以及联合索引(first_name,age)
alter table student add first_name varchar(2) generated always as(left(name, 1)), add index(age,first_name); explain select * from student where age=18 and first_name='张';
4.2.3慢查询原因总结
  • 全表扫描:explain分析type属性all
  • 全索引扫描:explain分析type属性index
  • 索引过滤性不好:靠索引字段选型、数据量和状态、表设计
  • 频繁的回表查询开销:尽量少用select * ,使用覆盖索引
4.3 分页查询优化
一般性分页查询使用简单的 limit 子句就可以实现。limit格式如下:
SELECT * FROM 表名 LIMIT [offset,] rows
第一个参数指定第一个返回记录行的偏移量,注意从0开始;第二个参数指定返回记录行的最大数目;如果只给定一个参数,它表示返回最大的记录行数目;
思考1 :如果偏移量固定,返回记录量对执行时间有什么影响?
select * from user limit 10000,1; select * from user limit 10000,10; select * from user limit 10000,100; select * from user limit 10000,1000; select * from user limit 10000,10000;
结果:在查询记录时,返回记录量低于100条,查询时间基本没有变化,差距不大。随着查询记录 量越大,所花费的时间也会越来越多。
思考2 :如果查询偏移量变化,返回记录数固定对执行时间有什么影响?
select * from user limit 1,100; select * from user limit 10,100; select * from user limit 100,100; select * from user limit 1000,100; select * from user limit 10000,100;
结果:在查询记录时,如果查询记录量相同,偏移量超过100后就开始随着偏移量增大,查询时间急剧的增加。(这种分页查询机制,每次都会从数据库第一条记录开始扫描,越往后查询越慢,而且查询的数据越多,也会拖慢总查询速度。)
 
分页优化方案:
第一步:利用覆盖索引优化
select * from user limit 10000,100;//old select id from user limit 10000,1;//new
第二步:利用子查询优化
select * from user limit 10000,100;//old select * from user where id>= (select id from user limit 10000,1) limit 100;//new
原因:使用了id做主键比较(id>=) ,并且子查询使用了覆盖索引进行优化。
5.最佳实践
5.1 阿里开发规范
  1. 【强制】业务上具有唯一特性的字段,即使是多个字段的组合,也必须建成唯一索引。
说明:不要以为唯一索引影响了insert速度,这个速度损耗可以忽略,但提高查找速度是明显的;另外,即使在应用层做了非常完善的校验控制,只要没有唯一索引,根据墨菲定律,必然有脏数据产生。
  1. 【强制】超过三个表禁止join。需要join的字段,数据类型必须绝对一致;多表关联查询时,保证被关联的字段需要有索引。
说明:即使双表join也要注意表索引、SQL性能。
  1. 【强制】在varchar字段上建立索引时,必须指定索引长度,没必要对全字段建立索引,根据实际文本区分度决定索引长度即可。
说明:索引的长度与区分度是一对矛盾体,一般对字符串类型数据,长度为20的索引,区分度会高达90%以上,可以使用count(distinct left(列名, 索引长度))/count(*)的区分度来确定。
  1. 【强制】页面搜索严禁左模糊或者全模糊,如果需要请走搜索引擎来解决。
说明:索引文件具有B-Tree的最左前缀匹配特性,如果左边的值未确定,那么无法使用此索引。
  1. 【推荐】如果有order by的场景,请注意利用索引的有序性。order by 最后的字段是组合索引的一部分,并且放在索引组合顺序的最后,避免出现file_sort的情况,影响查询性能。
正例:where a=? and b=? order by c; 索引:a_b_c
反例:索引中有范围查找,那么索引有序性无法利用,如:WHERE a>10 ORDER BY b; 索引a_b无法排序。
  1. 【推荐】利用覆盖索引来进行查询操作,避免回表。
说明:如果一本书需要知道第11章是什么标题,会翻开第11章对应的那一页吗?目录浏览一下就好,这个目录就是起到覆盖索引的作用。
正例:能够建立索引的种类分为主键索引、唯一索引、普通索引三种,而覆盖索引只是一种查询的一种效果,用explain的结果,extra列会出现:using index。
  1. 【推荐】利用延迟关联或者子查询优化超多分页场景。
说明:MySQL并不是跳过offset行,而是取offset+N行,然后返回放弃前offset行,返回N行,那当offset特别大的时候,效率就非常的低下,要么控制返回的总页数,要么对超过特定阈值的页数进行SQL改写。
正例:先快速定位需要获取的id段,然后再关联:
SELECT a.* FROM 表1 a, (select id from 表1 where 条件 LIMIT 100000,20 ) b where a.id=b.id
  1. 【推荐】 SQL性能优化的目标:至少要达到 range 级别,要求是ref级别,如果可以是consts最好。
说明:
1)consts 单表中最多只有一个匹配行(主键或者唯一索引),在优化阶段即可读取到数据。
2)ref 指的是使用普通的索引(normal index)。
3)range 对索引进行范围检索。
反例:explain表的结果,type=index,索引物理文件全扫描,速度非常慢,这个index级别比较range还低,与全表扫描是小巫见大巫。
  1. 【推荐】建组合索引的时候,区分度最高的在最左边。
正例:如果where a=? and b=? ,a列的几乎接近于唯一值,那么只需要单建idx_a索引即可。
说明:存在非等号和等号混合判断条件时,在建索引时,请把等号条件的列前置。如:where a>? and b=? 那么即使a的区分度更高,也必须把b放在索引的最前列。
  1. 【推荐】防止因字段类型不同造成的隐式转换,导致索引失效。
  2. 【参考】创建索引时避免有如下极端误解:1)宁滥勿缺。认为一个查询就需要建一个索引。2)宁缺勿滥。认为索引会消耗空间、严重拖慢更新和新增速度。3)抵制惟一索引。认为业务的惟一性一律需要在应用层通过“先查后插”方式解决。
5.2 普通索引和唯一索引的选择
  • 读性能:
对于普通索引来说,查找到满足条件的第一个记录 ,需要查找下一个记录,直到碰到第一个不满足条件的记录。
对于唯一索引来说,由于索引定义了唯一性,查找到第一个满足条件的记录后,就会停止继续检索。
InnoDB 的数据是按数据页为单位来读写的。也就是说,当需要读一条记录的时候,并不是将这个记录本身从磁盘读出来,而是以页为单位,将其整体读入内存。在 InnoDB 中,每个数据页的大小默认是 16KB。所以唯一索引读的性能优势微乎其微。
  • 写性能:
对于唯一索引来说,所有的更新操作都要先判断这个操作是否违反唯一性约束。
比如,要插入(k,name) (4,400) 这个记录,就要先判断现在表中是否已经存在 k=4 的记录,而这必须要将数据页读入内存才能判断。
如果都已经读入到内存了,那直接更新内存会更快,就没必要使用 change buffer 了。因此,唯一索引的更新就不能使用 change buffer,实际上也只有普通索引可以使用。
 
如果要在这张表中插入一个新记录 (4,400) 的话,InnoDB 的处理流程是怎样的:
  • 第一种情况是,这个记录要更新的目标页在内存中。这时,InnoDB 的处理流程如下:
a.对于唯一索引来说,找到 3 和 5 之间的位置,判断到没有冲突,插入这个值,语句执行结束;
b.对于普通索引来说,找到 3 和 5 之间的位置,插入这个值,语句执行结束。
这样看来,普通索引和唯一索引对更新语句性能影响的差别,只是一个判断,只会耗费微小的 CPU 时间。但这不是我们关注的重点。
  • 第二种情况是,这个记录要更新的目标页不在内存中。这时,InnoDB 的处理流程如下:
a.对于唯一索引来说,需要将数据页读入内存,判断到没有冲突,插入这个值,语句执行结束;
b.对于普通索引来说,则是将更新记录在 change buffer,语句执行就结束了。将写磁盘操作变成写内存操作。
将数据从磁盘读入内存涉及随机 IO 的访问,是数据库里面成本最高的操作之一。change buffer 因为减少了随机磁盘访问,所以对更新性能的提升是会很明显的。
 
结论:
在实际使用中,普通索引和 change buffer 的配合使用,对于数据量大的表的更新优化还是很明显的。
这两类索引在查询能力上是没差别的,主要考虑的是对更新性能的影响。所以尽量选择普通索引。
 
问题:5.2说保证唯一要不使用唯一索引,5.1说要使用。如何选择?
性能和逻辑复杂性的权衡。在需要唯一键的场景下,我倾向于使用唯一索引。性能问题可能永远不会出现,但是代码复杂性带来的维护成本是看得见摸得着的。
 
 
 
 
 
posted @ 2023-10-13 17:40  悟空悟不空  阅读(81)  评论(0编辑  收藏  举报