B树(Balance Tree)与B+树

 

B-树 B+树

  • B-树

    • 概念:一个节点可以拥有多于2个子节点的二叉查找树
    • 即B树,横线不是减号
    • 主要用于文件系统和部分数据库索引,如MongoDB
    • 一个m阶的B树具有如下几个特征:
      1. 根结点至少有两个子女。
      2. 每个中间节点都包含k-1个元素和k个孩子,其中 m/2 <= k <= m
      3. 每一个叶子节点都包含k-1个元素,其中 m/2 <= k <= m
      4. 所有的叶子结点都位于同一层。
      5. 每个节点中的元素从小到大排列,节点当中k-1个元素正好是k个孩子包含的元素的值域分划。
  • B+树

    • 是B-树的变体,比B-查询性能更高
    • 一个m阶的B+树具有如下几个特征:
      1. 有k个子树的中间节点包含有k个元素(B树中是k-1个元素),每个元素不保存数据,只用来索引,所有数据都保存在叶子节点。
      2. 所有的叶子结点中包含了全部元素的信息,及指向含这些元素记录的指针,且叶子结点本身依关键字的大小自小而大顺序链接。
      3. 所有的中间节点元素都同时存在于子节点,在子节点元素中是最大(或最小)元素。
  • 区别

    • B+树中间节点没有卫星数据,所以同样大小的磁盘页可以存储更多节点元素,即相同数据量时,B+树比B-树更“矮胖”,所以IO更少。
    • B+树必须查到叶子节点,而B-树也许查到中间节点就找到了,所以B-并不稳定(最好和最坏情况)
    • 范围查询时的不同。B-树只能靠中序遍历,B+树可以依靠叶子节点的链表做遍历。
    • B+的优势:
      1. 单一节点存储更多的元素,使得查询的IO次数更少。
      2. 所有查询都要查找到叶子节点,查询性能稳定。
      3. 所有叶子节点形成有序链表,便于范围查询。

为什么是树

  • 查询效率高
  • 可以保持有序
  • 索引很大时,无法把索引加载到内存中
  • 基于磁盘IO慢的考量,降低IO次数

相关名词

  • 卫星数据(Satellite Information)
    • 索引元素指向的数据记录,B-树中,中间节点和叶子节点都带有卫星数据;B+树中,只有叶子节点带有卫星数据,中间节点仅仅是索引
    • 在数据库的聚集索引(Clustered Index)中,叶子节点直接包含卫星数据。在非聚集索引(NonClustered Index)中,叶子节点带有指向卫星数据的指针。

posted @ 2019-05-13 20:26  duniqb  阅读(445)  评论(0编辑  收藏  举报