[MySQL-笔记]创建高性能索引

  索引,MySQL中也叫“键”,是存储引擎中用于快速找到记录的一种数据结构,具体的工作方式就像书本中的索引一样,但是具体的实现方式会有差别。

一.索引分类

B-Tree索引:

  优点:

  • MyISAM中,索引根据数据的物理位置引用被索引的行,InnoDB中根据主键引用被索引的行。
  • B-Tree索引能够加快访问数据的速度,因为存储引擎不再需要进行全表扫描来获取需要的数据,而是从索引的根节点开始进行搜索。
  • B-Tree对索引列是顺序组织存储的,所以很适合查找范围数据。
  • 一般来说,B-Tree可以按照某种方式查找到值,那么也可以用这种方式排序

  限制:

  • 如果不是按照索引的最左列开始查到,则无法使用索引
  • 不能跳过索引中的列
  • 如果查询中有某个列的范围查询,则其右边所有的列都无法使用索引优化查找。

哈希索引:

  哈希索引基于哈希表实现,只有精确匹配的索引所有列的查询才有效

  优点:

  • 非常快

  限制:

  • 哈希索引只包含哈希值和行指针,而不存储字段值,所以不能使用索引中的值来避免读取行
  • 哈希索引不是按照索引值顺序存储的,所以不能用于排序
  • 哈希索引不支持部分索引列匹配查找。
  • 哈希索引只支持等值比较查询。
  • 哈希冲突很多的话,一些索引维护操作的代价会很高。

二.索引的优点

最常见的是B-Tree索引,按照顺序存储数据,所以可以用来做ORDER BY和GROUP BY操作。因为数据是有次序的,所以B-Tree也就会将相关的列值存储在一块。由于索引中存储了实际的列值,所以某些查询只使用索引就可以完成全部查询。

1.索引大大减少了服务器需要扫描的数据量

2.索引可以帮助服务器避免排序和临时表

3.索引可以将随机I/O变为顺序I/O.

 

三.高性能索引策略

1) 独立的列

独立的列是指索引列不能是表达式的一部分,也不能是函数的一部分

2)前缀索引和索引选择性

诀窍在于要选择足够长的索引以保证高的索引选择性,但是又不能太长(节约空间)。

3)多列索引

首先“把where条件里面的列都建上索引”是错误的。

如果在一个查询用使用两个单列索引,在老版本的MySQL中会导致全表扫描,在新版本中,查询可以使用多个单列索引,并将结果合并

这种算法有三个变种:

  •    OR条件的联合(union)
  •    AND条件的相交(intersection)
  •    以前OR和AND的组合

索引合并策略更多的说明了索引建的很糟糕:

  • 当出现服务器对多个索引做相交操作时,通常意味着需要一个包含所有相关列的多列索引,而不是多个独立的单列索引
  • 当服务器需要对多个索引做联合操作时,通常需要耗费大量的CPU和内存资源在算法的缓存/排序/合并操作上。

4)选择合适的索引列顺序

  多列索引的顺序至关重要

  有一个经验法则:当不需要考虑排序和分组时候,将选择性高的列放在前面通常是很好的。

 

5) 聚簇索引

  聚簇索引不是一种单独的索引类型,而是一种数据存储方式,实际上,InnoDB聚簇索引在同一个结构中保存了B-Tree索引和数据行。当表有聚簇索引时候,它的数据行实际上放在索引的叶子页中。“聚簇”,表示数据行键值紧凑的存储再一起。

  优点:

  • 可以把相关数据保存在一起,减少磁盘I/O
  • 数据访问更快,因为索引和数据保存在同一个B-Tree中
  • 使用覆盖索引扫描查询可以直接使用页节点的主键值。

  缺点:

  • 聚簇索引最大限度的提高了I/O密集型应用的性能,但是如果数据都在内存中,聚簇索引就没有优势了
  • 插入速度严重依赖插入顺序
  • 更新聚簇索引代价很高
  • 在插入新行,或者主键更新需要移动行时候,可能导致页分裂。
  • 导致全表扫描变慢,尤其是行稀疏的时候,或者由于页分裂导致数据存储不连续时候
  • 二级所以可能比想象中更大,因为二级索引的叶子节点包含了主键值
  • 二级索引访问需要两次索引查找,而不是一次。

6)覆盖索引

如果一个索引包含(覆盖)了所有需要查询的字段的值,那么就是覆盖索引

覆盖索引必须要存储索引列的值,而哈希索引,空间索引,全文索引都不存储索引列的值,只有B-Tree可以

MySQL不能再索引中执行LIKE操作,这是底层API的限制,MySQL只能提取数据行的值而不是索引的值来比较。

为了利用覆盖索引,我们可以利用一种叫延迟关联的技巧

7) 使用索引扫描来做排序

 

参考资料:高性能MySQL第五章

posted @ 2017-03-28 23:24  wilderness  阅读(178)  评论(0编辑  收藏  举报