mysql索引1-19

1.为什么要给表加上主键?
2.为什么加索引后会使查询变快?
3.为什么加索引后会使写入、修改、删除变慢?
4.当我给表加上主键后，根据非主键字段查找时怎么加快，要是设置索引，查询机制是什么?
5.非聚集索引和聚集索引的区别？
6.什么情况下要同时在两个字段上建复合索引?
7.什么是最左前缀的规则？
8.如何命中索引？
9.如何创建索引？
10.Mysql的索引时间复杂度
11.索引分类？
12.在普通索引中，什么情况下会引发表锁
13.使用like的时候会出发索引吗？
14.如何创建索引
15.索引越多的坏处
16.你知道哪些数据结构可以提高查询速度？
17.哈希表索引格式
18.><between可以用到索引吗
19.mysql为什么说单表最多 2 千万数据？真的是这样吗？

1.为什么要给表加上主键?

一个重要概念:平衡树，平衡因子的绝对值不能超过1 
MyISAM和InnoDB存储引擎只支持BTREE索引，即将平衡树当做数据表默认的索引数据结构

#1.平时建表的时候都会为表加上主键，在某些关系数据库中,如果建表时不指定主键，数据库会拒绝建表的语句执行。 
#2.一个没加主键的表，它的数据无序的放置在磁盘存储器上，一行一行的排列的很整齐， 跟我认知中的'表'很接近 
#3.事实上， 一个加了主键的表，并不能被称之为'表',如果给表上了主键，那么表在磁盘上的存储结构就
由整齐排列的 结构转变成了树状结构，也就是上面说的「平衡树」结构,换句话说，就是整个表就变成了一
个索引 -->聚集索引

主键的作用就是把「表」的数据格式转换成「索引(平衡树)」的格式放置。(如下图)

上图就是带有主键的表(聚集索引)的结构图其中树的所有结点(底部除外)的数据都是由主键字段中的数据构成，即节点只存key，也就是通常我们指定主键的id字段。最下面部分是真正表中的数据。假如我们执行一个SQL语句:

select * from table where id = 1256;

首先根据索引定位到1256这个值所在的叶结点，然后再通过叶结点取到id等于1256的数据行。这里不讲解平衡树的运行

细节，但是从上图能看出，树一共有三层，从根节点至叶节点只需要经过三次查找就能得到结果。如下图

另外在数据之间是一个双链表的结构
select * from table where id > 1256;那么据不需要再一层一层往上面找，直接找他后边的数据就行

2.为什么加索引后会使查询变快?

#不使用索引 O(N)
假如一张表有一亿条数据，需要查找其中某一条数据，按照常规逻辑，一条一条的去匹配的话，最坏的情况
下需要匹配一亿次才能得到结果，用大O标记法就是O(n)最坏时间复杂度，这是无法接受的，而且这一亿条
  数据显然不能一次性读入内存供程序使用，因此，这一亿次匹配在不经缓存优化的情况下就是一亿次IO开
  销，以现在磁盘的IO能力和CPU的运算能力，有可能需要几个月才能得出结果。
  
#使用索引
如果把这张表转换成平衡树结构(一棵非常茂盛和节点非常多的树)，假设这棵树有10层，那么只需要10次IO开销就 能查找到所需要的数据， 速度以指数级别提升，用大O标记法就是O(logn)
  因此，利用索引会使数据库查询有惊人的性能提升

3.为什么加索引后会使写入、修改、删除变慢?

然而,事物都是有两面的,索引能让数据库查询数据的速度上升而使写入数据的速度下降，原因很简单的 
#因为平衡树这个结构必须一直维持在一个正确的状态:
  增删改数据都会改变平衡树各节点中的索引数据内容，破坏树结构
因此，在每次数据改变时，DBMS必须去重新梳理树(索引)的结构以确保它的正确，这会带来不小的性能开销，也就是为什么索引会给查询以外的操作带来副作用的原因。

1.并不是索引越多查询越快，应该按需创建索引
2.索引越多，对数据的写入和修改需要维护索引，因为是B+树就会面临一个问题：
	分页（存不下了），合并（存的值太小）

4.当我给表加上主键后，根据非主键字段查找时怎么加快，要是设置索引，查询机制是什么?

#引子:当我们设置id为主键，当我们执行下列查询语句:
select * from table where name = alex: 遍历树结构，一个个找，同样很慢，因此需要将name也创建索引，就是常规索引即非聚集索引

#非聚集索引和聚集索引一样，同样是采用平衡树作为索引的数据结构。 索引树结构中各节点的值来自于表
中的索引字段 假如给user表的name字段加上索引,那么索引就是由name字段中的值构成,也就是说此树的
节点就是name 在数据改变时，DBMS需要一直维护索引结构的正确性。如果给表中多个字段加上索引，那么
就会出现多个独立的索引结构，每个索引(非聚集索引)互相之间不存在关联。
每次给字段建一个新索引，字段中的数据就会被复制一份出来， 用于生成索引。 因此给表添加索引，会增
加表的体积，占用磁盘存储空间

5.非聚集索引和聚集索引的区别？

#聚集索引(主键):可以查到需要查找的数据

#非聚集索引(其他字段的索引)：可以查到记录对应的主键值，再使用主键的值通过聚集索引查找到需要的数据

不管以任何方式查询表， 最终都会利用主键通过聚集索引来定位到数据，聚集索引(主键)是通往真实数据所在的唯一路径

6.什么情况下要同时在两个字段上建复合索引?

 #有一种例外可以不使用聚集索引就能查询出所需要的数据，这种方法称之为「覆盖索引」查询
		即复合索引或者多字段索引查询 
		当为字段建立索引以后，字段中的内容会被同步到索引之中，如果为一个索引指定两个字段，那么这个两个字段的内容都会被同步至索引之中。 

#先看下面这个SQL语句
    create index index_age on user_info(age);
    select user_name from user_info where age = '20'
这句SQL语句的执行过程如下
  首先，通过非聚集索引index_age查找age等于19的所有记录的主键ID值 
  然后，通过得到的主键ID值执行聚集索引查找，找到主键ID值对就的真实数据(数据行)存储的位置 
  最后， 从得到的真实数据中取得user_name字段的值返回， 也就是取得最终的结果

#我们把birthday字段上的索引改成双字段的覆盖索引
	create index index_age_and_user_name on user_info(age, user_name);
#这句SQL语句的执行过程就会变为
		通过非聚集索引index_age_and_user_name查找age等于19的叶节点的内容 
		叶节点中除了有user_name表主键ID的值以外,user_name字段的值也在里面,因此不需要通过主键ID值的查找数据行的真实所在,直接取得叶节点中user_name的值返回即可 
		通过这种覆盖索引直接查找的方式,可以省略不使用覆盖索引查找的后面两个步骤,大大的提高了查询性能，如下图：

7.什么是最左前缀的规则？

#使用联合索引时候,如果想要命中索引必须遵循最左前缀原则 
#最左匹配原则中，有如下说明:
	最左前缀匹配原则，非常重要的原则，mysql会一直向右匹配直到遇到范围查询(>、<、between、like)就停止匹配，比如a = 1 and b = 2 and c > 3 and d = 4 如果建立(a,b,c,d)顺序的索引，d是用不到索引的，如果建立(a,b,d,c)的索引则都可以用到，a,b,d的顺序可以任意调整。

	=和in可以乱序，比如a = 1 and b = 2 and c = 3 建立(a,b,c)索引可以任意顺序，mysql的查询优化器会帮你优化成索引可以识别的形式

8.如何命中索引？

1.注意范围问题,或者说条件不明确, 条件中出现这些符号或关键字:>、>=、<、<=、!= 、between.and.、like 
2.尽量使用区分度高的列设置索引
3.索引列不能在条件中参与计算
4.使用最左前缀匹配原则
5.不要使用函数 select * from tb1 where reverse(email) = 'egon';sql语句出现函数时候,索引也未命中 
6.注意类型一致
7.条件为索引，则select字段必须也是索引字段，否则无法命中 select name from s1 order by email desc;

9.如何创建索引？

#方式一
create table t1(
    id int,
    name char,
    age int,
sex enum('male','female'), unique key uni_id(id),
index ix_name(name) #index没有key
);

# 方式二
create index ix_age on t1(age);

# 方式三
alter table t1 add index(sex);

10.Mysql的索引时间复杂度

B+树：O(logn)

11.索引分类？

MySQL索引从存储方式、逻辑角度和实际使用的角度来进行分类。
存储方式区分:
 1) B-树索引
 2) 哈希索引

逻辑区分:
 1) 普通索引：基本的索引类型，值可以为空。没有唯一性的限制
 2) 唯一索引：索引列的所有值都只能出现一次，即必须唯一，值可以为空
 3) 主键索引：主键是一种唯一索引，但他必须制定为PRIMAPR KEY，每个表唯一性
 4) 空间索引：空间索引是对空间数据类型的字段建立的索引，使用 SPATIAL 关键字进行扩展。
 5) 全文索引：全文索引的索引类型为FULLTEXT。全文索引可以在varchar,char,text类型上创建

组合索引：
	多列值组成一个索引，专门用于组合搜索

12.在普通索引中，什么情况下会引发表锁

常用的索引有三类:主键、唯一索引、普通索引。
	主键:自带最高效的索引属性; 
	唯一索引:指的是该属性值重复率为0，一般可作为业务主键，例如学号;
	普通索引:与前者不同的是，属性值的重复率大于0，不能作为唯一指定条件，例如学生姓名。

1.结论:
	当 Where 查询条件中的字段没有索引时，更新操作会锁住全表! 可以看到，在有索引的情况下，更新不同的行，InnoDB 默认的行锁不会阻塞。
	当“值重复率”低时，甚至接近主键或者唯一索引的效果，“普通索引”依然是行锁;当“值重复率”高时，MySQL 不会把这个“普通索引”当做索引，即造成了一个没有索引的 SQL，此时引发表锁。
	所有explain查看sql执行计划

13.使用like的时候会出发索引吗？

情况1:
%abc:不会出发索引
abc%:会出发索引

14.如何创建索引

索引分类为：主键索引、唯一索引、普通索引、全文索引（用于varchar和text）、组合索引
1、唯一索引： CREATE UNIQUE INDEX unique_order_id ON biz_data_supplement_task(order_id);
2、普通使用：CREATE INDEX index_order_order_id ON his_supplement_record(order_id);
3、组合索引：CREATE INDEX index_order_id ON rel_order_supplement_approval(order_id,del_flag);
注：如果字段类型为varchar需指定字段长度，避免索引过长 例：
CREATE UNIQUE INDEX unique_order_id ON biz_data_supplement_task(order_id(11));


CREATE INDEX index_name ON table_name (column_list)
CREATE UNIQUE INDEX index_name ON table_name (column_list)

15.索引越多的坏处

1.并不是索引越多查询越快，应该按需创建索引
2.索引越多，对数据的写入和修改需要维护索引树。

16.你知道哪些数据结构可以提高查询速度？

B+树

17.哈希表索引格式

缺点：
	1.利用hash存储的话需要讲所有的数据文件添加到内存中，比较耗费内存空间
	2.如果所有的查询都是等值查询，那么hash确实很快，但是在企业中查找的数据更多，而不是等值查询(范围查询较多)，因此hash不太适合

18.><between可以用到索引吗

范围条件是：<、<=、>、>=、between
范围列可以用到索引，但是范围列后面的列无法用到索引，索引最多用于一个范围列

19.mysql为什么说单表最多 2 千万数据？真的是这样吗？

数据库表里面的数据是放在页中存储的，一个页大小 16K。包含了页号，指向前后页的指针数据。
mysql采用的B+树结构存储，叶子节点存储数据，非叶子节点存储主键ID和指向子节点指针。

非叶子节点包含X个指向子节点的指针,叶子节点存储数据条数为Y,B+树高度为Z.可容纳的记录条数为(X^（Z-1))*Y.
假设：非叶子节点页头页尾校验码占 1KB,一行数据占 12byte，那么非叶子节点包含 1280 个指向子节点指针，既X=1280,叶子节点中的数据假设占 1KB,一个叶子节点可以存储的数据就是 15 条,Y=15，假设B+树的高度为 3，Z=3,那么存储的数据就是 2500 万。
(1280^(2))*15=24576000
所以规范建议单表最多 2 千万条数据。
但是如果单条数据只有250byte,那么一个叶子节点可以存储60 多条数据，Y=60。B+树高度 3，Z=3，X=1280。
(1280^(2))*60=98304000。约等于 1 亿条数据，高度为 3，查询效率不变

posted @ 2021-05-24 18:34 Jeff的技术栈阅读(387) 评论(0) 编辑收藏举报

刷新页面返回顶部

Jeff的技术栈

生命在于运动，学习在于坚持！！！