数据结构

什么是数据结构

决定了数据顺序和位置关系

数据存储于计算机的内存中。内存如下图所示，形似排成1列的箱子，1个箱子里存储 1个数据。数据存储于内存时，决定了数据顺序和位置关系的便是“数据结构”

选择合适的数据结构以提高内存的利用率

将数据存储于内存时，根据使用目的选择合适的数据结构，可以提高内存的利用率。数据在内存中是呈线性排列的，但是我们也可以使用指针等道具，构造出类似“树形”的复杂结构

链表

链表是数据结构之一，其中的数据呈线性排列。在链表中，数据的添加和删除都较为方便，就是访问比较耗费时间。

这就是链表的概念图。Blue、Yellow、Red这3个字符串作为数据被存储于链表中。每个数据都有1个 “指针”，它指向下一个数据的内存地址。

在链表中，数据一般都是分散存储于内存中的，无须存储在连续空间内。

因为数据都是分散存储的，所以如果想要访问数据，只能从第1个数据开始，顺着指针的指向一一往下访问（这便是顺序访问）。比如，想要找到Red这一数据，就得从Blue开始访问。

这之后，还要经过Yellow，我们才能找到Red。

如果想要添加数据，只需要改变添加位置前后的指针指向就可以，非常简单。比如，在Blue 和Yellow之间添加Green。

将Blue的指针指向的位置变成 Green，然后再把Green的指针指向Yellow，数据的添加就大功告成了。

数据的删除也一样，只要改变指针的指向就可以，比如删除Yellow。

这时，只需要把Green指针指向的位置从Yellow变成Red，删除就完成了。虽然Yellow本身还存储在内存中，但是不管从哪里都无法访问这个数据，所以也就没有特意去删除它的必要了。今后需要用到 Yellow所在的存储空间时，只要用新数据覆盖掉就可以了。

解说

对链表的操作所需的运行时间到底是多少呢？在这里，我们把链表中的数据量记成 n。访问数据时，我们需要从链表头部开始查找（线性查找），

如果目标数据在链表最后的话，需要的时间就是 O(n)。另外，添加数据只需要更改两个指针的指向，所以耗费的时间与n 无关。

如果已经到达了添加数据的位置，那么添加操作只需花费O(1) 的时间。删除数据同样也只需 O(1) 的时间。

补充说明

上文中讲述的链表是最基本的一种链表。除此之外，还存在几种扩展方便的链表。虽然上文中提到的链表在尾部没有指针，

但我们也可以在链表尾部使用指针，并且让它指向链表头部的数据，将链表变成环形。这便是“循环链表”，也叫“环形链表”。

循环链表没有头和尾的概念。想要保存数量固定的最新数据时通常会使用这种链表。

另外，上文链表里的每个数据都只有一个指针，但我们可以把指针设定为两个，并且让它们分别指向前后数据，这就是“双向链表”。

使用这种链表，不仅可以从前往后，还可以从后往前遍历数据，十分方便。但是，双向链表存在两个缺点：

一是指针数的增加会导致存储空间需求增加；

二是添加和删除数据时需要改变更多指针的指向。

数组

数组也是数据呈线性排列的一种数据结构。与前一节中的链表不同，在数组中，访问数据十分简单，而添加和删除数据比较耗工夫。

这就是数组的概念图。Blue、Yellow、Red作为数据存储在数组中。

数据按顺序存储在内存的连续空间内。

由于数据是存储在连续空间内的，所以每个数据的内存地址（在内存上的位置）都可以通过数组下标算出，我们也就可以借此直接访问目标数据（这叫作“随机访问”）。

比如现在我们想要访问Red。如果使用指针就只能从头开始查找，但在数组中，只需要指定 a[2]，便能直接访问Red。

但是，如果想在任意位置上添加或者删除数据，数组的操作就要比链表复杂多了。这里我们尝试将Green添加到第2个位置上。

首先，在数组的末尾确保需要增加的存储空间。

为了给新数据腾出位置，要把已有数据一个个移开。首先把Red往后移。

然后把Yellow往后移。

最后在空出来的位置上写入Green。

添加数据的操作就完成了。

反过来，如果想要删除Green……

首先，删掉目标数据（在这里指Green）。

然后把后面的数据一个个往空位移。先把 Yellow往前移。

接下来移动Red。

最后再删掉多余的空间。这样一来Green便被删掉了。

解说

补充说明

在链表和数组中，数据都是线性地排成一列。在链表中访问数据较为复杂，添加和 删除数据较为简单；而在数组中访问数据比较简单，添加和删除数据却比较复杂。 我们可以根据哪种操作较为频繁来决定使用哪种数据结构。

栈

栈也是一种数据呈线性排列的数据结构，不过在这种结构中，我们只能访问最新添加的数据。栈就像是一摞书，拿到新书时我们会把它放在书堆的最上面，取书时也只能从最上面的新书开始取。

这就是栈的概念图。现在存储在栈中的只有数据Blue。

然后，栈中添加了数据Green。

接下来，数据Red入栈。

从栈中取出数据时，是从最上面，也就是最新的数据开始取出的。这里取出的是Red。

如果再进行一次出栈操作，取出的就是Green了。

解说

应用示例

队列

与前面提到的数据结构相同，队列中的数据也呈线性排列。虽然与栈有些相似，但队列中添加和删除数据的操作分别是在两端进行的。就和“队列”这个名字一样，把它想象成排成一队的人更容易理解。

在队列中，处理总是从第一名开始往后进行，而新来的人只能排在队尾。

这就是队列的概念图。现在队列中只有数据Blue。

然后，队列中添加了数据Green。

紧接着，数据Red也入队了。

从队列中取出（删除）数据时，是从最下面，也就是最早入队的数据开始的。这里取出的是Blue。

如果再进行一次出队操作，取出的就是Green了。

解说

应用示例

哈希表

在哈希表这种数据结构中，讲解“哈希函数”的时候，可以使数据的查询效率得到显著提升。

哈希表存储的是由键（key）和值（value）组成的数据。例如，我们将每个人的性别作为数据进行存储，键为人名，值为对应的性别。

为了和哈希表进行对比，我们先将这些数据存储在数组中

此处准备了6个箱子（即长度为6的数组）来存储数据。假设我们需要查询Ally的性别，由于不知道Ally的数据存储在哪个箱子里，所以只能从头开始查询。这个操作便叫作“线性查找”

提示

0号箱子中存储的键是Joe而不是Ally。

1号箱子中的也不是Ally。

同样，2号、3号箱子中的也都不是Ally。

查找到4号箱子的时候，发现其中数据的键为 Ally。把键对应的值取出，我们就知道Ally的性别为女（F）了。

数据量越多，线性查找耗费的时间就越长。由此可知：由于数据的查询较为耗时，所以此处并不适合使用数组来存储数据。

但使用哈希表便可以解决这个问题。首先准备好数组，这次我们用5个箱子的数组来存储数据。

尝试把Joe存进去。

使用哈希函数（Hash）计算Joe的键，也就是字符串“Joe”的哈希值。得到的结果为4928

将得到的哈希值除以数组的长度5，求得其余数。这样的求余运算叫作“mod运算”。此处 mod运算的结果为3。

因此，我们将Joe的数据存进数组的3号箱子中。重复前面的操作，将其他数据也存进数组中。

Sue键的哈希值为7291，mod 5的结果为1，将Sue的数据存进1号箱中。

Dan键的哈希值为1539，mod 5的结果为4，将Dan的数据存进4号箱中。

Nell键的哈希值为6276，mod 5的结果为1。本应将其存进数组的1号箱中，但此时1号箱中已经存储了Sue的数据。这种存储位置重复了的情况便叫作“冲突”。

遇到这种情况，可使用链表在已有数据的后面继续存储新的数据。

Ally键的哈希值为9143，mod 5的结果为3。本应将其存储在数组的3号箱中，但3号箱中已经有了Joe的数据，所以使用链表，在其后面存储Ally的数据。

Bob键的哈希值为5278，mod 5的结果为3。本应将其存储在数组的3号箱中，但3号箱中已经有了Joe和Ally的数据，所以使用链表，在Ally的后面继续存储Bob的数据。

像这样存储完所有数据，哈希表也就制作完成了。

接下来讲解数据的查询方法。假设我们要查询 Dan的性别。

为了知道Dan存储在哪个箱子里，首先需要算出 Dan键的哈希值，然后对其进行mod运算。最后得到的结果为4，于是我们知道了它存储在4号箱中。

查看4号箱可知，其中的数据的键与Dan一致，于是取出对应的值。由此我们便知道了Dan的性别为男（M）。

那么，想要查询Ally的性别时该怎么做呢？为了找到它的存储位置，先要算出Ally键的哈希值，再对其进行mod运算。最终得到的结果为3。

然而3号箱中数据的键是Joe而不是Ally。此时便需要对Joe所在的链表进行线性查找。

于是我们找到了键为Ally的数据。取出其对应的值，便知道了Ally的性别为女（F）。

解说

补充说明

堆

堆是一种图的树形结构，被用于实现“优先队列”（priority queues）。优先队列是一种数据结构，可以自由添加数据，但取出数据时要从最小值开始按顺序取出。在堆的树形结构中，各个顶点被称为“结点”（node），数据就存储在这些结点中。

这就是堆的示例。结点内的数字就是存储的数据。堆中的每个结点最多有两个子结点。树的形状取决于数据的个数。另外，结点的排列顺序为从上到下，同一行里则为从左到右。

在堆中存储数据时必须遵守这样一条规则：子结点必定大于父结点。因此，最小值被存储在顶端的根结点中。往堆中添加数据时，为了遵守这条规则，一般会把新数据放在最下面一行靠左的位置。当最下面一行里没有多余空间时，就再往下另起一行，把数据加在这一行的最左端。

我们试试往堆里添加数字5。

首先按照第二幅图的说明寻找新数据的位置。该图中最下面一排空着一个位置，所以将数据加在此处。

如果父结点大于子结点，则不符合上文提到的规则，因此需要交换父子结点的位置。

这里由于父结点的6大于子结点的5，所以交换了这两个数字。重复这样的操作直到数据都符合规则，不再需要交换为止。

现在，父结点的1小于子结点的5，父结点的数字更小，所以不再交换。

这样，往堆中添加数据的操作就完成了。

从堆中取出数据时，取出的是最上面的数据。这样，堆中就能始终保持最上面的数据最小。

由于最上面的数据被取出，因此堆的结构也需要重新调整。

按照第一幅图中说明的排列顺序，将最后的数据（此处为6）移动到最顶端。

如果子结点的数字小于父结点的，就将父结点与其左右两个子结点中较小的一个进行交换。

这里由于父结点的6大于子结点（右）的5大于子结点（左）的3，所以将左边的子结点与父结点进行交换。重复这个操作直到数据都符合规则，不再需要交换为止。

现在，子结点（右）的8大于父结点的6大于子结点（左）的4，需要将左边的子结点与父结点进行交换。

这样，从堆中取出数据的操作便完成了。

解说

应用示例

二叉查找树

二叉查找树（又叫作二叉搜索树或二叉排序树）是一种数据结构，采用了图的树形结构。数据存储于二叉查找树的各个结点中。

这就是二叉查找树的示例。结点中的数字便是存储的数据。此处以不存在相同数字为前提进行说明。

二叉查找树有两个性质。第一个是每个结点的值均大于其左子树上任意一个结点的值。比如结点9大于其左子树上的3和8。

同样，结点15也大于其左子树上任意一个结点的值。

第二个是每个结点的值均小于其右子树上任意一个结点的值。比如结点15小于其右子树上的 23、17和28。

根据这两个性质可以得到以下结论。首先，二叉查找树的最小结点要从顶端开始，往其左下的末端寻找。此处最小值为3。

反过来，二叉查找树的最大结点要从顶端开始，往其右下的末端寻找。此处最大值为28。

下面我们来试着往二叉查找树中添加数据。比如添加数字1。

首先，从二叉查找树的顶端结点开始寻找添加数字的位置。将想要添加的1与该结点中的值进行比较，小于它则往左移，大于它则往右移。

由于1＜9，所以将1往左移。

由于1＜3，所以继续将1往左移，但前面已经没有结点了，所以把1作为新结点添加到左下方。

这样，1的添加操作便完成了。

接下来，我们再试试添加数字4。

和前面的步骤一样，首先从二叉查找树的顶端结点开始寻找添加数字的位置。

由于4＜9，所以将其往左移。

由于4＞3，所以将其往右移。.

由于4＜8，所以需要将其往左移，但前面已经没有结点了，所以把4作为新结点添加到左下方。

于是4的添加操作也完成了。

接下来看看如何在二叉查找树中删除结点。比如我们来试试删除结点28。

如果需要删除的结点没有子结点，直接删掉该结点即可。

再试试删除结点8。

如果需要删除的结点只有一个子结点，那么先删掉目标结点……

然后把子结点移到被删除结点的位置上即可。

最后来试试删除结点9。

如果需要删除的结点有两个子结点，那么先删掉目标结点……

然后在被删除结点的左子树中寻找最大结点……

最后将最大结点移到被删除结点的位置上。这样一来，就能在满足二叉查找树性质的前提下删除结点了。如果需要移动的结点（此处为4）还有子结点，就递归执行前面的操作

下面来看看如何在二叉查找树中查找结点。比如我们来试试查找12。

从二叉查找树的顶端结点开始往下查找。和添加数据时一样，把12和结点中的值进行比较，小于该结点的值则往左移，大于则往右移。

提示

由于12＞4，所以往右移。

找到结点12了。

解说

补充说明

posted @ 2019-04-11 21:29 樵夫-justin 阅读(327) 评论(0) 收藏举报

刷新页面返回顶部

樵夫

子非鱼焉知鱼之乐

数据结构

什么是数据结构

决定了数据顺序和位置关系

选择合适的数据结构以提高内存的利用率

链表

解说

补充说明

数组

解说

补充说明

栈

解说

应用示例

队列

解说

应用示例

哈希表

解说

补充说明

堆

解说

应用示例

二叉查找树

解说

补充说明

公告

樵夫

子非鱼 焉知鱼之乐

数据结构

什么是数据结构

决定了数据顺序和位置关系

选择合适的数据结构以提高内存的利用率

链表

解说

补充说明

数组

解说

补充说明

栈

解说

应用示例

队列

解说

应用示例

哈希表

解说

补充说明

堆

解说

应用示例

二叉查找树

解说

补充说明

公告

子非鱼焉知鱼之乐