【面试普通人VS高手系列】b树和b+树的理解

数据结构与算法问题，困扰了无数的小伙伴。

很多小伙伴对数据结构与算法的认知有一个误区，认为工作中没有用到，为什么面试要问，问了能解决实际问题？

图灵奖获得者： Niklaus Wirth 说过：程序=数据结构+算法，也就说我们无时无刻都在和数据结构打交道。

只是作为Java开发，由于技术体系的成熟度较高，使得大部分人认为：程序应该等于框架 + SQL 呀？

今天我们就来分析一道数据结构的题目：”B树和B+树“。

关于这个问题，我们来看看普通人和高手的回答！

普通人：

嗯. 我想想 … 嗯… Mysql里面好像是用了B+树来做索引的！然后…

高手：

为了更清晰的解答这个问题，我打算从三个方面来回答：

了解二叉树、AVL树、B树的概念
B树和B+树的应用场景

B树是一种多路平衡查找树，为了更形象的理解。

二叉树，每个节点支持两个分支的树结构，相比于单向链表，多了一个分支。

二叉查找树，在二叉树的基础上增加了一个规则，左子树的所有节点的值都小于它的根节点，右子树的所有子节点都大于它的根节点。

二叉查找树会出现斜树问题，导致时间复杂度增加，因此又引入了一种平衡二叉树，它具有二叉查找树的所有特点，同时增加了一个规则：”它的左右两个子树的高度差的绝对值不超过1“。平衡二叉树会采用左旋、右旋的方式来实现平衡。

而B树是一种多路平衡查找树，它满足平衡二叉树的规则，但是它可以有多个子树，子树的数量取决于关键字的数量，比如这个图中根节点有两个关键字3和5，那么它能够拥有的子路数量=关键字数+1。

因此从这个特征来看，在存储同样数据量的情况下，平衡二叉树的高度要大于B树。

B+树，其实是在B树的基础上做的增强，最大的区别有两个：

1. B树的数据存储在每个节点上，而B+树中的数据是存储在叶子节点，并且通过链表的方式把叶子节点中的数据进行连接。
2. B+树的子路数量等于关键字数

这个是B树的存储结构，从B树上可以看到每个节点会存储数据。

这个是B+树，B+树的所有数据是存储在叶子节点，并且叶子节点的数据是用双向链表关联的。

2.B树和B+树，一般都是应用在文件系统和数据库系统中，用来减少磁盘IO带来的性能损耗。

以Mysql中的InnoDB为例，当我们通过select语句去查询一条数据时，InnoDB需要从磁盘上去读取数据，这个过程会涉及到磁盘IO以及磁盘的随机IO

我们知道磁盘IO的性能是特别低的，特别是随机磁盘IO。

因为，磁盘IO的工作原理是，首先系统会把数据逻辑地址传给磁盘，磁盘控制电路按照寻址逻辑把逻辑地址翻译成物理地址，也就是确定要读取的数据在哪个磁道，哪个扇区。

为了读取这个扇区的数据，需要把磁头放在这个扇区的上面，为了实现这一个点，磁盘会不断旋转，把目标扇区旋转到磁头下面，使得磁头找到对应的磁道，这里涉及到寻道事件以及旋转时间。

很明显，磁盘IO这个过程的性能开销是非常大的，特别是查询的数据量比较多的情况下。

所以在InnoDB中，干脆对存储在磁盘块上的数据建立一个索引，然后把索引数据以及索引列对应的磁盘地址，以B+树的方式来存储。

如图所示，当我们需要查询目标数据的时候，根据索引从B+树中查找目标数据即可，由于B+树分路较多，所以只需要较少次数的磁盘IO就能查找到。

3.为什么用B树或者B+树来做索引结构？原因是AVL树的高度要比B树的高度要高，而高度就意味着磁盘IO的数量。所以为了减少磁盘IO的次数，文件系统或者数据库才会采用B树或者B+树。

以上就是我对B树和B+树的理解！

总结

数据结构在实际开发中非常常见，比如数组、链表、双向链表、红黑树、跳跃表、B树、B+树、队列等。

在我看来，数据结构是编程中最重要的基本功之一。

学了顺序表和链表，我们就能知道查询操作比较多的场景中应该用顺序表，修改操作比较多的场景应该使用链表。

学了队列之后，就知道对于FIFO的场景中，应该使用队列。

学了树的结构后，会发现原来查找类的场景，还可以更进一步提升查询性能。

基本功决定大家在技术这个岗位上能够走到的高度。

好的，本期的普通人VS高手面试系列就到这里结束了，喜欢的朋友记得点赞收藏。

如果最近大家遇到一些场景类和方案设计类的问题，欢迎私信我，我在后续的内容中给大家做解答！

部分高手面试文档已整理，需要的小伙伴可以私信或者评论区留言。

posted @ 2022-04-20 16:23 跟着Mic学架构阅读(947) 评论(0) 收藏举报

刷新页面返回顶部

Loading

跟着Mic学架构

专注有深度的技术原创！

【面试普通人VS高手系列】b树和b+树的理解

普通人：

高手：

总结

公告