Mysql 索引原理及优化
Mysql 索引原理及优化
什么是索引
为什么需要索引?
- 索引是数据表种一个或者多个列进行排序的数据结构
- 索引能够大幅提升检索速度
- 创建、更新索引本身也会耗费空间和时间
查找结构进化史
- 线性查找:一个个找;实现简单;太慢
- 二分查找:有序;简单;要求是有序的,插入特别慢
- HASH查找:查询快;占用空间;不太适合存储大规模数据
- 二叉查找树:插入和查询很快(log(n));无法存大规模数据,复杂度退化
- 平衡树:解决 BST 退化问题,树是平衡的;节点非常多的时候,依然树高很高
- 多路查找树:一个父亲多个孩子节点(度);节点过多树高不会特别深
- 多路平衡查找树:B-Tree
关于这些查找结果的演示推荐:https://www.cs.usfca.edu/~galles/visualization/Algorithms.html
这个网站关于数据结构的演示很直观,我们可以通过其中的动画来学习。
比如二叉查找树退化问题:
可以明显看到,由于我们输入的数字是顺序增长的,二叉查找树变成了单边增长的线性结构,这就是复杂度退化。
平衡树(AVL)则没有这个问题:
什么是 B-Tree?
- 多路平衡查找树(每个节点最多 m(m>=2) 个孩子,称为 m 阶或者度)
- 叶节点具有相同的深度
- 节点的数据 key 从左到右是递增的
演示
B+Tree
- Mysql 实际使用的 B+Tree 作为索引的数据结构
- 只在叶子节点带有指向记录的指针(For what?可以增加树的度)
- 叶子节点通过指针相连(For what?实现范围查询)
Mysql 创建索引类型
- 普通类型(CREATE INDEX)
- 唯一索引,索引列的值必须唯一(CREATE UNIQUE INDEX)
- 多列索引
- 主键索引(PRIMARY KEY),一个表只能有一个
- 全文索引(FULLTEXT INDEX),InnoDB 不支持
什么时候创建索引
- 经常用作查询条件的字段
- 经常用作表连接的字段
- 经常出现在 order by,group by 之后的字段
创建索引有哪些需要注意的?
最佳实践
- 非空字段 NOT NULL,Mysql 很难对空值作查询优化
- 区分度高,离散度大,作为索引的字段值尽量不要有大量相同值
- 索引的长度不要太长(比较耗费时间)
索引什么时候失效?
模糊匹配、类型隐转、最左匹配
- 以 % 开头的 LIKE 语法,模糊搜索
- 出现隐式类型转换(在 Python 这种动态语言查询中需要注意)
- 没有满足最左前缀原则
什么是聚集索引和非聚集索引?
- 聚集还是非聚集指的是 B+Tree 叶节点存的是指针还是数据记录
- MyISAM 索引和数据分离,使用的是非聚集索引
- InnoDB 数据文件就是索引文件,主键索引就是聚集索引
对比如下
区别是在 B+Tree 的叶节点存储数据还是指针
MyISAM 索引是非聚集的,InnoDB 主键索引是聚集索引
辅助索引
还有一个辅助索引,我们也可以了解下。
如何排查慢查询
慢查询通常是缺少索引,索引不合理或者业务代码实现所致
slow_query_log_file
开启并且查询慢查询日志- 通过
explain
排查索引问题 - 调整数据修改索引;业务代码层限制不合理访问