B树和B+树

$B$ 树是为了磁盘或其它存储设备而设计的一种多叉平衡查找树，多叉就是多个分支的意思，二叉树就是最多只有两个分支的树。

如下图所示，即是一棵 $B$ 树。

一棵 $m$ 阶的 $B$ 树必须满足如下条件：

1）每个结点最多含有 $m$ 个分支，也就是说：每个节点最多 $m-1$ 个关键字。

2）根节点最少可以有 $1$ 个关键字，其它节点最少有 $\lceil \frac{m}{2} \rceil - 1$ 个关键字。

3）每个节点的内部结构为： $n$ 为节点中关键字的个数， $K_i,i=1,2,...,n$ 为关键字，从小到大排列， $P_i,i=0,1,...,n$ 为指向关键字满足

$[K_i,K_{i+1}]$ 范围的孩子节点。

这里认为上面的 $B$ 树高度为 $3$ ，第三层就是叶子节点，至于有些材料说那些 $null$ 是叶子节点，简直扯淡。

$B$ 树的节点类型定义如下，这个定义只是用来查找内存数据的，如果用来查找外存，代码需要调整一下，下面叙述。

typedef int KeyType;
 
struct BTNode {
    int keyNum;              // 关键字个数
    struct BTNode *parent;   // 指向父节点
    struct BTNode **ptr;     // 子树指针向量, ptr[0],ptr[1],...,ptr[keyNum]
    KeyType **key;           // 关键字向量, key[0],key[1],...,key[keyNum-1]
}

$B$ 树设计的目的是用来查找磁盘的，为了简单，假设每个盘块正好存放一个 $B$ 树的结点,这里用少量数据构造一棵 $3$ 叉树的形式，来描述文件查

找的具体过程。

上面的图中比如根结点，其中 $17$ 表示一个磁盘文件的文件名；小红方块表示这个 $17$ 文件内容在硬盘中的存储位置； $P_1$ 表示指向 $17$ 左子树的指针。

此时节点类型定义如下：

typedef char* KeyType;
 
struct BTNode {
    int keyNum;              // 关键字个数
    struct BTNode *parent;   // 指向父节点
    struct BTNode **ptr;     // 子树指针向量, ptr[0],ptr[1],...,ptr[keyNum]，每个元素存放另外一个盘块的地址
    KeyType **key;           // 关键字向量, 存储的是文件名
    FILE_HARD_ADDR *offset;  // 存储每个文件(关键字)的磁盘地址
}

下面来模拟下查找文件 $29$ 的过程：

1）根据根结点指针找到文件目录的根磁盘块 $1$ ，将其中的信息导入内存。【磁盘 $IO$ 操作 $1$ 次】

2）此时内存中有两个文件名 $17$ 、 $35$ 和三个存储其他磁盘页面地址的数据。根据算法我们发现： $17<29<35$ ，因此我们找到指针 $P_2$ 。

3）根据 $P_2$ 指针，我们定位到磁盘块 $3$ ，并将其中的信息导入内存。【磁盘 $IO$ 操作 $2$ 次】

4）此时内存中有两个文件名 $26$ 、 $30$ 和三个存储其他磁盘页面地址的数据。根据算法我们发现： $26<29<30$ ，因此我们找到指针 $P_2$ 。

5）根据 $P_2$ 指针，我们定位到磁盘块 $8$ ，并将其中的信息导入内存。【磁盘 $IO$ 操作 $3$ 次】

6）此时内存中有两个文件名 $28$ 、 $29$ 。根据算法我们查找到文件名 $29$ ，并定位了该文件内存的磁盘地址。

分析上面的过程，发现需要 $3$ 次磁盘 $IO$ 操作和 $3$ 次内存查找操作。关于内存中的文件名查找，由于是一个有序表结构，可以利用折半查找提高效率。

至于 $IO$ 操作是影响整个 $B$ 树查找效率的决定因素。

根据上面的例子我们可以看出，对于辅存做 $IO$ 读的次数取决于 $B$ 树的高度。而 $B$ 树的高度由什么决定的呢？

问题：一棵 $m$ 阶 $B$ 树，关键字个数为 $n$ ，求高度 $h$ (不包含叶子节点)的取值范围。

1）要使高度 $h$ 最小，则每个节点的分支数均取上限 $m$ ，此时的 $B$ 树就是一个完全 $m$ 叉树，此时高度为

$h = \lceil \; \log_m \left (\lceil \frac{n}{m-1} \rceil (m-1)+1 \right ) \; \rceil$

2）要使 $h$ 最大，则每个节点的分支数均取下限 $2$ (根)或者 $\lceil \frac{m}{2} \rceil$ (非根)，此时每层的节点个数为：

$1-floor: \; 1 \\ 2-floor: \; 2 \\ 3-floor: \; 2\lceil \frac{m}{2} \rceil \\ 4-floor: \; 2\lceil \frac{m}{2} \rceil^{2} \\ \vdots \\ h-floor: \; 2\lceil \frac{m}{2} \rceil^{h-2}$

所以

$1 + \left ( 2 + 2\lceil \frac{m}{2} \rceil + 2\lceil \frac{m}{2} \rceil^{2} + \cdots + 2\lceil \frac{m}{2} \rceil^{h-2} \right )\left (\lceil \frac{m}{2} \rceil - 1 \right ) \\ = 1 + \frac{2\left ( 1 - \lceil \frac{m}{2} \rceil^{h-1} \right )}{1 - \lceil \frac{m}{2} \rceil} \left (\lceil \frac{m}{2} \rceil - 1 \right ) \\ = 2\lceil \frac{m}{2} \rceil^{h-1} - 1 = n$