sql优化(三)--索引设计的原则

---
title: 不懂SQL优化?那你就OUT了(三) -- 索引(二) -- 索引的设计原则 date: 2018-11-03 categories: 数据库优化
---

 

 

上一遍博客我们主要介绍了什么是索引,为什么要使用索引,索引的好处和如何创建索引,这一篇我们将讨论一下应该如何合理的创建索引。

增加索引有如此多的优点,为什么不对表中的每一个列创建一个索引呢?这种想法固然有其合理性,然而也有其片面性。

虽然,索引有许多优点, 但是,为表中的每一个列都增加索引,是非常不明智的。

这是因为,增加索引也有许多不利的方面。

索引有哪些“副作用”?

1. 创建索引和维护索引要耗费时间,这种时间随着数据量的增加而增加。 

2. 索引需要占物理空间,除了数据表占数据空间之外,每一个索引还要占一定的物理空间,

3. 当对表中的数据进行增加、删除和修改的时候,索引也要动态的维护,这样就降低了数据的维护速度。

应该在这些列上创建索引

1.在经常需要搜索的列上,可以加快搜索的速度; 

2.在作为主键的列上.

3.在经常用在连接的列上,这些列主要是一些外键,可以加快连接的速度; 

4.在经常需要根据范围进行搜索的列上创建索引,因为索引已经排序,其指定的范围是连续的; 

5.在经常需要order by,group by,distinct 列上创建索引,这样查询可以利用索引的排序,加快排序查询时间; 

6.在经常使用在WHERE子句中的列上面创建索引,加快条件的判断速度。

不应该创建索引的列具有下列特点

1.对于那些在查询中很少使用的列不应该创建索引。

原因:

既然这些列很少使用到,因此有索引或无索引,并不能提高查询速度。相反,由于增加了索引,反而降低了系统的维护速度和增大了空间需求。 

2. 对于那些只有很少数据值的列也不应该增加索引

原因:

由于这些列的取值很少, 例如:学生表的性别列,在查询的结果中,结果集的数据行占了表中数据行的很大比例,即需要在表中搜索的数据行的比例很大。增加索引,并不能明显加快检索速度。 

3.对于那些定义为text, blob数据类型的列不应该增加索引。

原因:

这些列的数据量要么相当大,要么取值很少。 

4.当修改性能远远大于检索性能时,不应该创建索引。

原因:

修改性能和检索性能是互相矛盾的。当增加索引时,会提高检索性能,但是会降低修改性能。当减少索引时,会提高修改性能,降低检索性能。因此当修改性能远远大于检索性能时不应该创建索引。

5.单表数据太少,不适合建索引

案列(代码)

示例代码:(无索引的表)

CREATE TABLE t_customer_one(

  customerId INT PRIMARY KEY AUTO_INCREMENT,  -- 编号
  customerName VARCHAR(20), -- 姓名
  customerAge INT, -- 年龄
  customerGender CHAR(3), -- 性别
  customerPhone VARCHAR(29), -- 联系方式
  customerEmail VARCHAR(30), -- 电子邮件
  province  VARCHAR(20), -- 所在省份
  city VARCHAR(30), --  所在城市
  address VARCHAR(200) -- 详细地址
);

添加的数据:

共 16777216 条数据

INSERT INTO t_customer_one(customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address) VALUES('张三',18,'女','15767678798','123456789@qq.com','四川','成都','武侯区科华北路88号');
INSERT INTO t_customer_one(customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address)  VALUES('李四',24,'男','18767689798','234567778@qq.com','广东','广州','白云区天明路188号');
INSERT INTO t_customer_one(customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address)  VALUES('王五',23,'女','17167675698','3456789@qq.com' , '四川','成都','武侯区科华北路85号');
INSERT INTO t_customer_one(customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address)  VALUES('赵六',26,'男','13767659697','45678123@qq.com', '广东','广州','白云区天明路180号');


INSERT INTO t_customer_one(customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address) 
             SELECT customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address FROM t_customer_one;
             

添加数据需要时间: 大约 8 分钟左右

示例代码:(带索引的表)

 CREATE TABLE t_customer_two(

  customerId INT PRIMARY KEY AUTO_INCREMENT,  -- 编号
  customerName VARCHAR(20), -- 姓名
  customerAge INT, -- 年龄
  customerGender CHAR(3), -- 性别
  customerPhone VARCHAR(29), -- 联系方式
  customerEmail VARCHAR(30), -- 电子邮件
  province  VARCHAR(20), -- 所在省份
  city VARCHAR(30), --  所在城市
  address VARCHAR(200) -- 详细地址
)

为表2添加索引

-- 单列索引

ALTER TABLE t_customer_two ADD INDEX idx_name(customerName);

ALTER TABLE t_customer_two ADD INDEX idx_age (customerAge);

ALTER TABLE t_customer_two ADD INDEX idx_phone(customerPhone);

-- 多列索引(联合索引)

CREATE INDEX idx_province_city_address ON t_customer_two(province,city,address);


添加数据(从表1复制数据):

INSERT INTO t_customer_two(customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address) 
             SELECT customerName,customerAge,customerGender,customerPhone,customerEmail,province,city,address FROM t_customer_one;

添加数据需要时间:大约 18分钟

 

 

 

测试

单列索引

案例

*** 查询年龄在18岁--23岁的客户的总人数**

无索引:

 

 

查询所用时间:19.75 秒

查看之执行计划: type=all 进行全表扫描

有索引:

 

查询所用时间:5.42 秒

查看之执行计划: type=range,并使用了索引idx_age.

说明:应该在在经常需要根据范围进行搜索的列上创建索引

多列索引

如果有一个页面中有一个搜索部分 会根据输入的 省份,城市,详细地址来搜索客户的详细记录

那么这个时候到底给那一个列加索引比较好?

此时就可以使用多列索引

如果使用多列索引,where条件中字段的顺序非常重要,需要满足最左前缀列

最左前缀: 查询条件中的所有字段需要从最左边列起按顺序出现在多列索引中,
         查询条件的字段数要 小于,等于多列索引的字段数,
         中间字段不能存在范围查询的字段 (如<,like等),这样的sql语句可以使用该多列索引。

什么意思?

例如:

select * from  t_customer_two Where province=‘xxx’ and city=‘xxxxx’ and address=‘XXX’ -- (多列索引有效)
select * from  t_customer_two Where province=‘xxx’ and city=‘XXX’ -- (多列索引有效)
select * from  t_customer_two Where province=‘xxx’ -- (多列索引有效)
select * from  t_customer_two Where  city=‘xxxxx’ and address=‘XXX’ -- (多列索引无效,无最左边的province列)
select * from  t_customer_two Where and address=‘XXX’ -- (多列索引无效)

使用了索引:

 

 

未使用索引:

 

 

mysql多列索引适合的场景

1. 匹配全值,对索引中的所有列都指定具体的值(例如: province=‘xxx’ and city=‘xxx’ and address=‘xxx’) 

2. 匹配最左前缀(例如: province=‘xxx’, 使用索引中的第一列) 

3. 匹配部分最左前缀(例如: province=‘xxx’ and city=‘xxx’) 

4. 匹配第一列范围查询(可用like a%,但不能使用 like %b 或则 like %b%) 

在以下几种情况下,mysql在查询中即使有索引也不会去使用

1. 在多列索引,查询条件中用的不是最左边的列,那么此时是不会使用索引。

2. like查询时 % 出现在第一位也不会使用索引。


3. 条件中有 or 也不会使用索引。


4. 如果 mysql 估计使用全表扫描比使用索引快,它也不会使用索引。





posted on 2018-11-03 17:08  一颗温柔的小番茄  阅读(1454)  评论(0编辑  收藏  举报