【MySQL】选错索引的原因分析
目录
一. 背景
1. MySQL怎样选择索引?
- Server层的优化器决定使用哪个索引
- 根据语句扫描的行数、是否排序、是否存在临时表来判断选择哪个索引
2. Candinality
- 一个索引上不同值的个数,称为"基数",即Candinality。基数越大,索引的区分度越好
- MySQL 在真正开始执行语句之前,并不能精确地知道满足这个条件的记录有多少条,而只能根据统计信息来估算记录数,这个统计信息就是索引的"区分度"。
3. 采样统计
- 采样统计的时候,InnoDB 默认会选择 N 个数据页,统计这些页面上的不同值,得到一个平均值,然后乘以这个索引的页面数,就得到了这个索引的基数。
- 而数据表是会持续更新的,索引统计信息也不会固定不变。所以,当变更的数据行数超过 1/M 的时候(M是10则表示十分之一),会自动触发重新做一次索引统计。
二. 原因
1. Explain显示的rows值和表中数据的实际行数相差较大,导致索引选错。
- Explain是根据采样方式统计,而不是统计所有数据,所以可能有误差
- 一致性视图影响
start transaction with consistent snapshot;
一致性视图影响:使用delete/update语句未提交前会导致数据存储多个版本,会影响到扫描行数的评估
2. 为什么二级索引扫描行数少,MySQL却选择了全表扫描?
- 因为使用二级索引还要回表查询,而全表扫描只用使用主键索引,MySQL可能认为回表性能更差
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 单线程的Redis速度为什么快?
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 展开说说关于C#中ORM框架的用法!
· SQL Server 2025 AI相关能力初探
· Pantheons:用 TypeScript 打造主流大模型对话的一站式集成库