【MySQL】MySQL索引优化实战(上)
4、in和or在表数据量比较大的情况会走索引,在表记录不多的情况下会选择全表扫描
数据准备-SQL
CREATE TABLE `employees` (
`id` int(11) NOT NULL AUTO_INCREMENT,
`name` varchar(24) NOT NULL DEFAULT '' COMMENT '姓名',
`age` int(11) NOT NULL DEFAULT '0' COMMENT '年龄',
`position` varchar(20) NOT NULL DEFAULT '' COMMENT '职位',
`hire_time` timestamp NOT NULL DEFAULT CURRENT_TIMESTAMP COMMENT '入职时间',
PRIMARY KEY (`id`),
KEY `idx_name_age_position` (`name`,`age`,`position`) USING BTREE
) ENGINE=InnoDB AUTO_INCREMENT=1 DEFAULT CHARSET=utf8 COMMENT='员工记录表';
INSERT INTO employees(name,age,position,hire_time) VALUES('LiLei',22,'manager',NOW());
INSERT INTO employees(name,age,position,hire_time) VALUES('HanMeimei', 23,'dev',NOW());
INSERT INTO employees(name,age,position,hire_time) VALUES('Lucy',23,'dev',NOW());
-- 插入一些示例数据
drop procedure if exists insert_emp;
delimiter //
create procedure insert_emp()
begin
declare i int;
set i=1;
while(i<=100000)do
insert into employees(name,age,position) values(CONCAT('zhuge',i),i,'dev');
set i=i+1;
end while;
end //
delimiter ;
call insert_emp();
如果上面的存储过程报错,那就不用理会了,用navicat工具自动生成10w+的数据就行。在下面的的案例中,表的数据量,也会影响MySQL底层对于索引策略的选择!
表字段
索引情况
一些复杂的索引优化例子
1、联合索引第一个字段用范围不会走索引
EXPLAIN SELECT * FROM employees
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
联合索引第一个字段就用范围查找不会走索引,MySQL内部可能觉得第一个字段就用范围,结果集应该很大,回表效率不高,还不如就全表扫描。
我们不妨做个实验
EXPLAIN SELECT * FROM employees
WHERE name = 'LiLei' AND age > 22 AND position ='manager';
EXPLAIN SELECT * FROM employees
WHERE name = 'LiLei' AND age = 22 AND position >'manager';
用了两个字段索引
用了三个字段索引
2、强制走索引
EXPLAIN SELECT * FROM employees force index(idx_name_age_position)
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
虽然使用了强制走索引让联合索引第一个字段范围查找也走索引,扫描的行rows看上去也少了点,但是最终查找效率不一定比全表扫描高,因为回表效率不高。
不妨看看下面的这个例子
如果是MySQL8.0以下的版本,MySQL还有缓存,所以要先将其关闭!
MySQL8.0以上的可以忽略!
-- 关闭查询缓存,8.0以上版本没有这个东西了!
set global query_cache_size=0;
set global query_cache_type=0;
执行结果如下,反而走全表扫描的查询效率更高!(尽管扫描行数更多)
-- 执行时间0.081s,不走索引,扫描行数:99977
SELECT * FROM employees WHERE name > 'LiLei';
-- 执行时间0.176s,强制走索引,扫描行数:49988
SELECT * FROM employees force index(idx_name_age_position) WHERE name > 'LiLei';
-- 如果使用覆盖索引,我们会发现执行效率更快!!!
-- 执行时间0.036s,扫描行数:49988
SELECT name,age,position FROM employees WHERE name > 'LiLei'
3、覆盖索引优化
EXPLAIN SELECT name,age,position FROM employees
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
所以一般情况下,我们遇到上述的这些问题,直接使用覆盖索引就好了!这也是为什么阿里巴巴手册上写着,慎用 “ SELECT * ” 的原因了!
4、in和or在表数据量比较大的情况会走索引,在表记录不多的情况下会选择全表扫描
EXPLAIN SELECT * FROM employees
WHERE name in ('LiLei','HanMeimei','Lucy')
AND age = 22 AND position ='manager';
大体的的意思就是数据量太大了,走索引的效率会高一点;但是如果数据量很小,那直接全表扫描可能效率更高。
5、like KK% 一般情况都会走索引(索引下推)
我们之前有提到过这样的一张表
-- ALL
EXPLAIN SELECT * FROM employees
WHERE name > 'LiLei' AND age = 22 AND position ='manager';
-- range (不管数据量大小都会走索引)
EXPLAIN SELECT * FROM employees
WHERE name like 'LiLei%' AND age = 22 AND position ='manager';
EXPLAIN SELECT * FROM employees_copy
WHERE name like 'LiLei%' AND age = 22 AND position ='manager';
这里主要是因为发生了索引下推!
索引下推(Index Condition Pushdown,ICP), 是MySQL5.6版本之后才有的东西。like KK%其实就是用到了索引下推优化。
索引下推
什么是索引下推?
对于辅助的联合索引(name,age,position),正常情况按照最左前缀原则
SELECT * FROM employees
WHERE name like 'LiLei%' AND age = 22 AND position ='manager';
这种情况只会走name字段索引,因为根据name字段过滤完,得到的索引行里的age和position是无序的,无法很好的利用索引。
在MySQL5.6之前的版本,这个查询只能在联合索引里匹配到名字是 'LiLei' 开头的索引,然后拿这些索引对应的主键逐个回表,到主键索引上找出相应的记录,再比对age和position这两个字段的值是否符合。
MySQL 5.6引入了索引下推优化,可以在索引遍历过程中,对索引中包含的所有字段先做判断,过滤掉不符合条件的记录之后再回表,可以有效的减少回表次数!!!
使用了索引下推优化后,上面那个查询在联合索引里匹配到名字是 'LiLei' 开头的索引之后,同时还会在索引里过滤age和position这两个字段,拿着过滤完剩下的索引对应的主键id再回表查整行数据。
所以这里的key_len是140,表示这3个字段的索引都有用到!!!
索引下推会减少回表次数,对于innodb引擎的表索引下推只能用于二级索引,innodb的主键索引(聚簇索引)树叶子节点上保存的是全行数据,所以这个时候索引下推并不会起到减少查询全行数据的效果。
为什么范围查找(大于号)MySQL没有用索引下推优化?
估计应该是MySQL认为范围查找过滤的结果集过大,like KK% 在绝大多数情况来看,过滤后的结果集比较小,所以这里MySQL选择给 like KK% 用了索引下推优化(不管数据量是大还是小!)
MySQL如何选择合适的索引
我们先来看看下面的这几条SQL
-- 执行时间 0.121s ALL
EXPLAIN SELECT * FROM employees WHERE name > 'a';
-- 执行时间 0.070s range
EXPLAIN SELECT name,age,position FROM employees WHERE name > 'a';
如果用name索引需要遍历name字段联合索引树,然后还需要根据遍历出来的主键值(如果符合条件的值很多),再去主键索引树里再去查出最终数据。这样做的成本比全表扫描还高,可以用覆盖索引优化,这样只需要遍历name字段的联合索引树就能拿到所有结果。
从两者的执行时间上来看,也可以发现走覆盖索引的效率要高得多!
再看看这一条SQL
不难发现它与第一条SQL相比,只是判断条件从“ name > 'a' ” 变成了 “ name > 'z' ”,但是后者居然就可以走索引了!
-- 执行时间 0.021s range
EXPLAIN SELECT * FROM employees WHERE name > 'zzz';
对于上面这两种 name>'a' 和 name>'zzz' 的执行结果,mysql最终如何选择索引,我们可以用trace工具来查看!
trace工具用法
我们先要开启trace
-- 开启trace
set session optimizer_trace="enabled=on",end_markers_in_json=on;
-- 关闭trace
set session optimizer_trace="enabled=off";
将下面的两条语句选中,一起执行!
select * from employees where name > 'a' order by position;
SELECT * FROM information_schema.OPTIMIZER_TRACE;
使用trace工具,我们可以清晰的看到SQL执行的三个阶段。为了方便阅读,我们将这一整个JSON拆成3个片段。
第一阶段:SQL准备阶段,格式化sql
第二阶段:SQL优化阶段
第三阶段:SQL执行阶段
第一阶段:SQL准备阶段,格式化sql
"join_preparation": { // 第一阶段:SQL准备阶段,格式化sql
"select#": 1,
"steps": [
{
"expanded_query": "/* select#1 */ select `employees`.`id` AS `id`,`employees`.`name` AS `name`,`employees`.`age` AS `age`,`employees`.`position` AS `position`,`employees`.`hire_time` AS `hire_time` from `employees` where (`employees`.`name` > 'a') order by `employees`.`position`"
}
] /* steps */
} /* join_preparation */
第二阶段:SQL优化阶段
"join_optimization": { // 第二阶段:SQL优化阶段
"select#": 1,
"steps": [
{
"condition_processing": { // 条件处理
"condition": "WHERE",
"original_condition": "(`employees`.`name` > 'a')",
"steps": [
{
"transformation": "equality_propagation",
"resulting_condition": "(`employees`.`name` > 'a')"
},
{
"transformation": "constant_propagation",
"resulting_condition": "(`employees`.`name` > 'a')"
},
{
"transformation": "trivial_condition_removal",
"resulting_condition": "(`employees`.`name` > 'a')"
}
] /* steps */
} /* condition_processing */
},
{
"substitute_generated_columns": {
} /* substitute_generated_columns */
},
{
"table_dependencies": [ // 表依赖详情
{
"table": "`employees`",
"row_may_be_null": false,
"map_bit": 0,
"depends_on_map_bits": [
] /* depends_on_map_bits */
}
] /* table_dependencies */
},
{
"ref_optimizer_key_uses": [
] /* ref_optimizer_key_uses */
},
{
"rows_estimation": [ // 预估表的访问成本
{
"table": "`employees`",
"range_analysis": {
"table_scan": { // 全表扫描情况
"rows": 99977, // 扫描行数
"cost": 10104.1 // 查询成本
} /* table_scan */,
"potential_range_indexes": [ // 查询可能使用的索引
{
"index": "PRIMARY", // 主键索引
"usable": false,
"cause": "not_applicable"
},
{
"index": "idx_name_age_position", // 辅助索引
"usable": true,
"key_parts": [
"name",
"age",
"position",
"id"
] /* key_parts */
}
] /* potential_range_indexes */,
"setup_range_conditions": [
] /* setup_range_conditions */,
"group_index_range": {
"chosen": false,
"cause": "not_group_by_or_distinct"
} /* group_index_range */,
"skip_scan_range": {
"potential_skip_scan_indexes": [
{
"index": "idx_name_age_position",
"usable": false,
"cause": "query_references_nonkey_column"
}
] /* potential_skip_scan_indexes */
} /* skip_scan_range */,
"analyzing_range_alternatives": { // 分析各个索引使用成本
"range_scan_alternatives": [
{
"index": "idx_name_age_position",
"ranges": [
"'a' < name" // 索引使用范围
] /* ranges */,
"index_dives_for_eq_ranges": true,
"rowid_ordered": false, // 使用该索引获取的记录是否按照主键排序
"using_mrr": false,
"index_only": false, // 是否使用覆盖索引
"in_memory": 1,
"rows": 49988, // 索引扫描行数
"cost": 17496.1, // 索引使用成本
"chosen": false, // 是否选择该索引
"cause": "cost"
}
] /* range_scan_alternatives */,
"analyzing_roworder_intersect": {
"usable": false,
"cause": "too_few_roworder_scans"
} /* analyzing_roworder_intersect */
} /* analyzing_range_alternatives */
} /* range_analysis */
}
] /* rows_estimation */
},
{
"considered_execution_plans": [
{
"plan_prefix": [
] /* plan_prefix */,
"table": "`employees`",
"best_access_path": { // 最优访问路径
"considered_access_paths": [ // 最终选择的访问路径
{
"rows_to_scan": 99977,
"access_type": "scan", // 访问类型:为scan,全表扫描
"resulting_rows": 99977,
"cost": 10102,
"chosen": true, //
"use_tmp_table": true
}
] /* considered_access_paths */
} /* best_access_path */,
"condition_filtering_pct": 100,
"rows_for_plan": 99977,
"cost_for_plan": 10102,
"sort_cost": 99977,
"new_cost_for_plan": 110079,
"chosen": true
}
] /* considered_execution_plans */
},
{
"attaching_conditions_to_tables": {
"original_condition": "(`employees`.`name` > 'a')",
"attached_conditions_computation": [
] /* attached_conditions_computation */,
"attached_conditions_summary": [
{
"table": "`employees`",
"attached": "(`employees`.`name` > 'a')"
}
] /* attached_conditions_summary */
} /* attaching_conditions_to_tables */
},
{
"optimizing_distinct_group_by_order_by": {
"simplifying_order_by": {
"original_clause": "`employees`.`position`",
"items": [
{
"item": "`employees`.`position`"
}
] /* items */,
"resulting_clause_is_simple": true,
"resulting_clause": "`employees`.`position`"
} /* simplifying_order_by */
} /* optimizing_distinct_group_by_order_by */
},
{
"reconsidering_access_paths_for_index_ordering": {
"clause": "ORDER BY",
"steps": [
] /* steps */,
"index_order_summary": {
"table": "`employees`",
"index_provides_order": false,
"order_direction": "undefined",
"index": "unknown",
"plan_changed": false
} /* index_order_summary */
} /* reconsidering_access_paths_for_index_ordering */
},
{
"finalizing_table_conditions": [
{
"table": "`employees`",
"original_table_condition": "(`employees`.`name` > 'a')",
"final_table_condition ": "(`employees`.`name` > 'a')"
}
] /* finalizing_table_conditions */
},
{
"refine_plan": [
{
"table": "`employees`"
}
] /* refine_plan */
},
{
"considering_tmp_tables": [
{
"adding_sort_to_table": "employees"
} /* filesort */
] /* considering_tmp_tables */
}
] /* steps */
} /* join_optimization */
第三阶段:SQL执行阶段
"join_execution": {
"select#": 1,
"steps": [
{
"sorting_table": "employees",
"filesort_information": [
{
"direction": "asc",
"expression": "`employees`.`position`"
}
] /* filesort_information */,
"filesort_priority_queue_optimization": {
"usable": false,
"cause": "not applicable (no LIMIT)"
} /* filesort_priority_queue_optimization */,
"filesort_execution": [
] /* filesort_execution */,
"filesort_summary": {
"memory_available": 262144,
"key_size": 40,
"row_size": 190,
"max_rows_per_buffer": 1379,
"num_rows_estimate": 99977,
"num_rows_found": 100003,
"num_initial_chunks_spilled_to_disk": 35,
"peak_memory_used": 271736,
"sort_algorithm": "std::stable_sort",
"sort_mode": "<fixed_sort_key, packed_additional_fields>"
} /* filesort_summary */
}
] /* steps */
} /* join_execution */
所以我们这边得出的结论:
全表扫描的成本低于索引扫描,所以mysql最终选择全表扫描
通过上面的JSON数据,我们就可以知道MySQL底层计算出来的策略。
有一些SQL语句,我们可能觉得它应该要走索引,但是实际上并没有,我们就可以通过trace,这个工具来看看SQL底层的执行逻辑,从而对其做出优化策略!
Order by与Group by优化(重点!!!)
Order by 优化
我们要看order by后面的字段是否走索引,看的是Extra的值是否含有Using filesort,如果有则不走索引,走文件排序;反之,走索引。
我们直接来看看几个例子,用案例来说明这个问题!
CASE 1:
-- order by 后面的age会走索引
explain select * from employees
where name = 'Lucy' and position = 'dev' order by age;
-- order by 后面的position不会走索引!
explain select * from employees
where name = 'Lucy' order by position;
利用最左前缀法则:中间字段不能断,因此查询用到了name索引,从key_len=74也能看出。
order by 里面的age字段在排序过程有使用到索引,因为Extra字段里没有using filesort
key_len=74,查询使用了name索引,由于用了position进行排序,跳过了age,出现了Using filesort(不走索引!)
CASE 2:
-- age和position用于排序(走索引)
explain select * from employees
where name = 'Lucy' order by age, position;
-- 排序的时候age和position颠倒位置(不走索引)
explain select * from employees
where name = 'Lucy' order by position, age;
查找只用到索引字段name,且name是等值查询,所以age是有序的!
order by后面的字段为age和position用于排序,自然会走索引(如果只是position就不会!),无Using filesort。
索引的创建顺序为name,age,position,但是排序的时候age和position颠倒位置了。所以是不会走索引的!!!extra的值自然也应该为Using filesort
CASE 3:
explain select * from employees
where name = 'Lucy' and age = 18 order by position, age;
在Extra中并未出现Using filesort,因为age为常量,在排序中被优化,相当于只根据position字段排序,所以索引未颠倒,不会出现Using filesort !
CASE 4:
-- Using filesort
explain select * from employees
where name = 'Lucy' order by age asc, position desc;
虽然排序的字段列与索引顺序一样,且order by默认升序,这里position desc变成了降序,导致与索引的排序方式不同,从而产生Using filesort。
MySQL8以上版本有降序索引可以支持该种查询方式,但是我这边试了一下,好像是不会走索引的,所以这一点有待考究!!!
CASE 5:
explain select * from employees
where name in ('Lucy','zhangsan') order by age, position;
对于排序来说,多个相等条件也是范围查询!!!
例如上面的,name为“Lucy”下的age可能有多个值,它们是有序的;name为“zhangsan”也是如此。但是把它们放在一起,把它们的age值都丢到一起,那么这肯定不能保证age的有序性!!!
CASE 6:
-- Using filesort
explain select * from employees
where name > 'a' order by name;
-- 走索引!
explain select * from employees
where name > 'zzz' order by name;
-- 走索引
explain select name,age,position from employees
where name > 'a' order by name;
看到这里相信大家肯定都有疑问了,我们判断的条件是name,order by的条件也是name,那么为什么不走extra里面会有Using filesort呢?
这是因为可能是数据量太大了!MySQL认为这样子筛出来的符合条件的数据集太多了,还要拿着这些数据去回表,再排序效率太低了;还不如直接全表扫描,然后在磁盘里面排序完再拿出来!
关于数据集大小会不会影响MySQL自身索引策略选择的问题,这里不妨看看第二条SQL!
显然,和我们之前推测的一样,这里什么都没有改,只是改变了where筛出来的结果集大小,居然order by的name字段就可以走索引了(extra不为Using filesort)
当然,对于这种问题,我们最好的解决策略就是使用覆盖索引,即让MySQL不需要回表,整个排序的过程在这棵二级索引树上就可以直接搞定!自然可以提高SQL的查询效率,降低order by的排序时间!
Group by 优化
group by与order by很类似!这里就不做过多展开了。
group by底层其实包含了一次order by的操作。它会根据我们编写的SQL语句中group by后面的字段,用它们先进行一次order by,然后再分组!也会遵照索引创建顺序的最左前缀法则!!!
如果不需要排序group by是可以简单优化一下的!在group by后面加上order by null禁止排序,可以提升一点查询效率。
优化总结
1、MySQL支持两种方式的排序filesort和index,Using index是指MySQL扫描索引本身完成排序。index效率高,filesort效率低。
2、order by满足两种情况会使用Using index
- order by语句使用索引最左前列
- 使用where子句与order by子句条件列组合满足索引最左前列
3、尽量在索引列上完成排序,遵循索引建立(索引创建的顺序)时的最左前缀法则。
4、如果order by的条件不在索引列上,就会产生Using filesort。
5、能用覆盖索引尽量用覆盖索引
6、group by后面可以使用having,但是能不用,就尽量不要使用!能写在where中的限定条件就不要去having限定了!!!
Using filesort文件排序原理详解(难点)
注意后面所讲的 max_length_for_sort_data 已经在MySQL8.0.2被废除了!后面有详细说明!
文件排序的方式有两种——单路排序、双路排序
单路排序
单路排序是一次性取出满足条件行的所有字段,然后在sort buffer(缓存)中进行排序!
用trace工具可以看到sort_mode信息里显示
< sort_key, additional_fields >
或者
< sort_key, packed_additional_fields >
不妨我们来试验一下
--开启trace
set session optimizer_trace="enabled=on",end_markers_in_json=on;
-- 跳过了age,一定会用文件排序!(两条SQL一起运行)
select * from employees where name = 'zhuge' order by position;
select * from information_schema.OPTIMIZER_TRACE;
单路排序的详细过程
- 从索引name找到第一个满足 name = ‘zhuge’ 条件的主键 id
- 根据主键 id 取出整行,取出所有字段的值,存入 sort_buffer 中
- 从索引name找到下一个满足 name = ‘zhuge’ 条件的主键 id
- 重复步骤 2、3 直到不满足 name = ‘zhuge’
- 对 sort_buffer 中的数据按照字段 position 进行排序
- 返回结果给客户端
双路排序
双路排序又叫回表排序模式。是首先根据相应的条件取出相应的排序字段和可以直接定位行数据的行 ID,然后在 sort buffer(缓存)中进行排序,排序完后需要再次取回其它需要的字段!
用trace工具可以看到sort_mode信息里显示
< sort_key, rowid >
不妨我们来试验一下
-- 查看 max_length_for_sort_data 默认值
SHOW VARIABLES LIKE '%max_length_for_sort_data%'
我这里使用的是MySQL8.0,所以查询出来的值为 4096,但是网络上好像都是说为1024~~~
不过没关系,我们测试完后改回来就行~
--employees表所有字段长度总和肯定大于10字节
set max_length_for_sort_data = 10;
select * from employees where name = 'zhuge' order by position;
select * from information_schema.OPTIMIZER_TRACE;
双路排序的详细过程
- 从索引 name 找到第一个满足 name = ‘zhuge’ 的主键id
- 根据主键 id 取出整行,把排序字段 position 和主键 id 这两个字段放到 sort buffer 中
- 从索引 name 取下一个满足 name = ‘zhuge’ 记录的主键 id
- 重复 3、4 直到不满足 name = ‘zhuge’
- 对 sort_buffer 中的字段 position 和主键 id 按照字段 position 进行排序
- 遍历排序好的 id 和字段 position,按照 id 的值回到原表中取出 所有字段的值返回给客户端
MySQL自身对于排序规则的选择
MySQL 通过比较系统变量 max_length_for_sort_data(默认1024字节,8.0版本为4096) 的大小和需要查询的字段总大小来判断使用哪种排序模式。
- 如果 字段的总长度小于max_length_for_sort_data ,那么使用 单路排序模式
- 如果 字段的总长度大于max_length_for_sort_data ,那么使用 双路排序模式
关于max_length_for_sort_data的总述
其实对比两个排序模式,单路排序会把所有需要查询的字段都放到 sort buffer 中,而双路排序只会把主键和需要排序的字段放到 sort buffer 中进行排序,然后再通过主键回到原表查询需要的字段。
如果 MySQL 排序内存 sort_buffer 配置的比较小并且没有条件继续增加了,可以适当把 max_length_for_sort_data 配置小点,让优化器选择使用双路排序算法,可以在sort_buffer 中一次排序更多的行,只是需要再根据主键回到原表取数据。
如果 MySQL 排序内存有条件可以配置比较大,可以适当增大 max_length_for_sort_data 的值,让优化器优先选择全字段排序(单路排序),把需要的字段放到 sort_buffer 中,这样排序后就会直接从内存里返回查询结果了。
所以,MySQL通过 max_length_for_sort_data 这个参数来控制排序,在不同场景使用不同的排序模式,从而提升排序效率。
注意,如果全部使用sort_buffer内存排序一般情况下效率会高于磁盘文件排序,但不能因为这个就随便增大sort_buffer(默认1M),mysql很多参数设置都是做过优化的,不要轻易调整。
注意事项!!!
给大家排个雷! max_length_for_sort_data 只对8.0.20之前的有效!如果你使用的是其之后的版本,那么无论怎么修改 max_length_for_sort_data 走的都是packed_additional_fields
对于未使用的慢速查询,请尝试将 max_length_for_sort_data 系统变量降低到适合触发的值。(将此变量的值设置得太高的症状是磁盘活动高和 CPU 活动低的组合。此技术仅适用于 MySQL 8.0.20 之前。从 8.0.20 开始,max_length_for_sort_data 已弃用,因为优化程序更改使其过时且无效。
具体见官方文档!!!
索引设计原则
1、代码先行,索引后上
建议不要建完表立即建立索引!
一般应该等到主体业务功能开发完毕,把涉及到该表相关sql都要拿出来分析之后再建立索引。
2、联合索引尽量覆盖条件
比如可以设计一个或者两三个联合索引(尽量少建单值索引),让每一个联合索引都尽量去包含sql语句里的where、order by、group by的字段,还要确保这些联合索引的字段顺序尽量满足sql查询的最左前缀原则。
3、不要在小基数字段上建立索引
索引基数是指这个字段在表里总共有多少个不同的值,比如一张表总共100万行记录,其中有性别字段 sex,其值不是男就是女,那么该字段的基数就是2。
如果对这种小基数字段建立索引的话,还不如全表扫描了,因为你的索引树里就包含男和女两种值,根本没法进行快速的二分查找,那用索引就没有太大的意义了。
一般建立索引,尽量使用那些基数比较大的字段(有区分度),就是值比较多的字段,那么才能发挥出B+树快速二分查找的优势来。
4、长字符串我们可以采用前缀索引
尽量对字段类型较小的列设计索引,因为字段类型较小的话,占用磁盘空间也会比较小,此时你在搜索的时候性能也会比较好一点。
当然,这个所谓的字段类型小一点的列,也不是绝对的,很多时候你就是要针对varchar(255)这种字段建立索引,哪怕多占用一些磁盘空间也是有必要的。
对于这种varchar(255)的大字段可能会比较占用磁盘空间,可以稍微优化下,比如针对这个字段的前20个字符建立索引,就是说,对这个字段里的每个值的前20个字符放在索引树里
类似于 KEY index(name(20),age,position)
此时你在where条件里搜索的时候,如果是根据name字段来搜索,那么此时就会先到索引树里根据name字段的前20个字符去搜索,定位到之后前20个字符的前缀匹配的部分数据之后,再回到聚簇索引提取出来完整的name字段值进行比对。
但是 order by name 就走不了索引了!那么此时你的name因为在索引树里仅仅包含了前20个字符,所以这个排序是没法用上索引的, group by也是同理。所以这里大家要对前缀索引有一个了解。
5、where与order by冲突时优先where
在where和order by出现索引设计冲突时,到底是针对where去设计索引,还是针对order by设计索引?到底是让where去用上索引,还是让order by用上索引?
一般这种时候往往都是让where条件去使用索引来快速筛选出来一部分指定的数据,接着再进行排序。
因为大多数情况基于索引进行where筛选往往可以最快速度筛选出你要的少部分数据,然后做排序的成本可能会小很多。
6、基于慢sql查询做优化
可以根据监控后台的一些慢SQL,针对这些慢sql查询做特定的索引优化。
索引设计实战
这里就直接使用图灵课堂上面举的例子了,我感觉这个例子挺好的~~~
以社交场景APP来举例,我们一般会去搜索一些好友,这里面就涉及到对用户信息的筛选,这里肯定就是对用户user表搜索了,这个表一般来说数据量会比较大,我们先不考虑分库分表的情况,比如,我们一般会筛选地区(省市),性别,年龄,身高,爱好之类的,有的APP可能用户还有评分,比如用户的受欢迎程度评分,我们可能还会根据评分来排序等等。
where province=xx and city=xx and sex=xx | (province,city,sex) |
---|---|
where province=xx and city=xx and age>=xx and age<=xx | (province,city,sex,age) |
province=xx and city=xx and sex in ('female','male') and age>=xx and age<=xx | (province,city,sex,hobby,age) |
where province=xx and city=xx and sex in ('female','male') and age>=xx and age<=xx and latest_login_time>= xx | (province,city,sex,hobby,age,latest_login_time) |
... | (province,city,sex,hobby,is_login_in_latest_7_days,age) |
核心思想就是,尽量利用一两个复杂的多字段联合索引,抗下你80%以上的查询,然后用一两个辅助索引尽量抗下剩余的一些非典型查询,保证这种大数据量表的查询尽可能多的都能充分利用索引,这样就能保证你的查询速度和性能了!
离开了业务谈设计,没有任何意义,同样的数据,在不同的场景下的应用模式都是不一样的!
我们只有搞清楚业务,才可以做出最匹配的产品!