数据库索引之离散度

    创建索引的目的是快速从整体集合中选择性地读取满足条件的一部分集合。在查询条件中既有对缩减查询范围起主要作用的驱动查询条件,也有单纯起检验作用的过滤查询条件,数据库将全部满足这两种查询条件的最终结果输出给我们。由此可见,虽然获得的最终结果相同,但是随着查询条件所起作用的不同,内部所处理的数据量具有很大的差异。

    因此,最理想的方法就是把拥有最小查询范围的条件作为驱动查询条件来使用。这里的最小查询范围也就意味着满足条件的数据在整体中所占的比重较小。所以,基于什么样的条件来创建索引将对缩减处理范围有着较大的影响。对于特定的读取类型,最有效的索引就是基于常量比较的列来创建的组合索引。

    离散度在不超过全表的10%-15%的前提下索引才可以显示其所具有的价值。当离散度超过该值的情况下全表扫描可能反倒比索引扫描更有效。我们所追求的目标就是创建全表扫描所无法比拟的有效索引。

    假设某个索引的离散度<1%,很明显小于损益分界点,但是在海量表中也不是个小数目,仍然会对在线处理构成极大的负担。如果基于一个列所创建的索引 无法实现预期目标,那么在不得已的情况下也只能基于多个列来创建组合索引。在各个列的离散度不太好的情况下,可以将这些列进行有效的组合,通过合力的有效 使用可以取得意想不到的效果。

    为了实现以最少的索引满足对某个表的多样化的数据读取要求,应当为每个索引分配合理的任务。

    1)在允许的情况下,对具有较好离散度的列单独创建索引,这样可以提高该索引的使用弹性;

    2)对于离散度较差的列,通过对多列进行合理的组合来创建组合索引,虽然这样做在很大程度上降低了各个列的使用弹性,但是却可以发挥多个列的综合效应。

    有时候基于离散度较好的列所创建的索引会与其识别能力比较相似的其他索引进行竞争。

     如果很容易就能够分辨出查询条件的优劣,则只需要从中选择最好的一个作为驱动查询条件就可以了;但是如果很难分辨,则需要考虑让多个列相互组合来共同负责数据的读取任务,这就是所谓的索引合并(Index Merge)。

    只有当合并的索引具有相似的离散度时索引合并才比较有效,当索引的离散度相差较大时使用索引合并的方法反倒容易影响执行效率。在两个索引行数悬殊的情况下,通常只使用其中最好的一个索引来负责读取数据,而另外的索引只负责检验即可。

    在实际工作中,经常会遇到即使列的离散度不好也必须要创建索引的情况,为了解决此类问题而需要创建组合索引(Concatenated Index)。所谓的组合索引是指基于多列所创建的索引。在组合索引中执行索引合并时,由于提前将满足条件的行集集中到了一起,所以可以在很大程度上提高 读取数据的速度。

    但是组合索引并非总能提高读取速度。只有在查询条件中对索引列使用了等值比较时组合索引才能够有突出的表现。当没有为组合索引中的第一个索引列赋予查询条件时,使用组合索引的效果会骤减,所以它的使用弹性和灵活性在很多条件下都受到限制。
 
   注:离散度可以用 最大行数 - 最小行数 / 总行数 来衡量。
posted @ 2012-11-09 18:52  TobyDev  阅读(4641)  评论(1编辑  收藏  举报