从磁盘结构到数据库索引

磁盘结构

按照顺时针方向，一个盘片由很多section组成，编号0-N。从里向外分，又由多个track组成，编号0-N,section和track交叉的地方叫做block,所以一个block可以由section和track来定位。每一个block的大小是一样的。

操作系统读取数据都是按照block为单位进行。

在block内，数据的存储结构可以看成一个一维数组，大致结构是这样(假设一个block的size为512byte)

Disk的读写头可以旋转和伸缩来定位一个block

为了使磁盘中的数据可以被应用程序使用，必须先copy数据到随机读写存储器RAM中,而这正是耗时的操作。

磁盘如何存储数据库数据

假设现在有一个Employee表，其中有一些字段，如下所示，所以一行数据的大小是128byte

假设总共有100行这样的数据

所以每一个block可以存储4行这样的数据，这100行数据需要25个block,假设现在按照这样的方式来查询一条记录，最多需要查找25个block.

那索引为什么可以减少查找的次数呢？

什么是索引

我们建一个简单的索引，有两个字段，一个eid，表示employee的id，还有一个字段pointer，指向数据存储在disk上的位置。empolyee中的每一行，在index上都有一条记录

当然我们也需要考虑如何存储这个索引表。如果索引存放在disk上，那么这个索引需要占据多少个block呢？eid大小为10bytes，pointer大小为6bytes，所以一行索引就有16个bytes大小。100条索引就需要占据100 * 16 / 512 ，也就是 4个block

在现在的情况下，我们查找employee表中的一条数据，最多就只需要4次索引表查找和一次employee表读取,相比没有索引的情况效率提升了很多

多级索引

如果现在把employee表中的数据行数增加到1000行，那么同理，数据表需要250个block,索引表需要40个block,现在查询一条记录就最多需要41次block的读取和拷贝(IO)

根据建立索引可以减少查找次数的理论，我们现在可以建立二级索引，也就是对上面的一级索引再建立索引，二级索引存储一级索引所在的block,现在一级索引占用40个block,所以二级索引表有40条记录，每一个索引记录大小为16byte,所以二级索引占用的block为40*16/512,也就是2个block。那么现在再来根据二级索引查找到一级索引所在的block,再根据一级索引直接定位到employee表中的某条数据所在的block，最多一共需要2+1+1=4次查找(IO),相比之前效率又提升了不少。