第二章——数据结构与算法基础(占比较高)
第二章 数据结构与算法基础(占比较高)
2.1 基本概念和三要素
数据结构在学什么?
如何用程序代码把现实世界的问题信息化
如何用计算机高效地处理这些信息从而创造价值,
数据:数据是信息的载体,是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。
数据元素、数据顶:数据元素是数据的基本单位,通常作为一个整体进行考虑和处理。一个数据元素可由若干数据项组成,数据项是构成数据元素的不可分割的最小单位
数据结构是相互之间存在一种或多种特定关系的数据元素的集合。
数据结构的三要素:逻辑结构、物理结构(存储结构)、数据的运算
逻辑结构:集合、线性结构、树形结构、图状结构(网状结构)
- 集合:各个元素同属一个集合,别无其他关系
- 线性结构:数据元素之间是一对一的关系。除了第一个元素,所有元素都有唯一前驱;除了最后一个元素,所有元素都有唯一后继
- 树形结构:数据元素之间是一对多的关系
- 图结构:数据元素之间是多对多的关系
物理结构:
- 顺序存储:把逻辑上相邻的元素存储在物理位置上也相邻的存储单元中
- 链式存储:逻辑上相邻的元素在物理位置上可以不相邻
- 索引存储:在存储元素信息的同时,还建立附加的索引表
- 散列存储:根据元素的关键字直接计算出该元素的存储地址,又称哈希(Hash)存储
2.2 算法
程序=数据结构+算法
数据结构表示如何把现实世界的问题信息化,将信息存进金算计,同时还要实现对数据结构的基本操作
算法表示如何处理这些信息以解决实际问题
算法的五个特性:
- 有穷性:一个算法必须总在执行有穷步之后结束,且每一步都可在有穷时间内完成。
- 确定性:算法中每条指令必须有确切的含义,对于相同的输入只能得出相同的输出。
- 可行性:算法中描述的操作都可以通过已经实现的基本运算执行有限次来实现。
- 输入:一个算法有零个或多个输入,这些输入取自于某个特定的对象的集合!
- 输出:一个算法有一个或多个输出,这些输出是与输入有着某种特定关系的量。
算法效率的度量(衡量算法好坏的指标):
- 时间复杂度:时间开销与问题规模n之间的关系
- 空间复杂度:空间开销(内存开销)与问题规模n之间的关系
函数递归调用带来的内存开销:空间复杂度 = 递归调用的深度
O(1) < O(log2n) < O(n) < O(nlog2n) < O(n2) < O(n3) < O(2n) < O(n!) < O(nn)
2.3 线性表
- 逻辑结构
- 物理结构
- 顺序表:顺序存储
- 链表:链式存储
- 双向链表
- 循环链表
- 静态链表
- 插入删除操作
线性表是具有相同数据类型的n(n≥0)个数据元素的有限序列,其中n为表长,当n=0时线性表是一个空表。
若用L命名线性表,则其一般表示为
ai是线性表中的“第i个”元素线性表中的位序;a1是表头元素;an是表尾元素。除第一个元素外,每个元素有且仅有一个直接前驱;除最后一个元素外每个元素有且仅有一个直接后继。
线性表存储结构:
性能类别 | 具体项目 | 顺序存储 | 链式存储 |
---|---|---|---|
空间性能 | 存储密度 | =1,更优 | <1 |
容量分配 | 事先确定 | 动态改变,更优 | |
时间性能 | 查找运算 | O(n/2) | O(n/2) |
读运算 | O(1),更优 | O([n+1]/2),最好情况为O(1),最坏情况为O(n) | |
插入运算 | O(n/2),最好情况为0,最坏情况为O(n) | O(1),更优 | |
删除运算 | O([n-1]/2) | O(1),更优 |
插入删除操作:
- 顺序存储:插入元素前要移动元素以挪出空的存储单元,然后再插入元素。删除元素时同样需要移动元素,以填充被删除元素的存储单元。
- 链式存储:(例如删除a2)
- 单链表删除节点:a1的指针指向a3
- 单链表插入节点:S指针指向新元素a4,先用a4的指针指向a2,然后a1的指针指向a4(顺序颠倒后就没有a2后面的数据了)
- 双向链表删除节点:P指针指向a2(要删除的节点),a1指向a3,然后a3指向a1
- 双向链表插入节点:先引入q指针指向x(要插入的节点),然后x的next指针指向a2,然后a2节点的前指针指向x,然后再连前面,a1的后指针指向x
2.4 栈和队列
栈(Stack)是只允许在一端进行插入或删除操作的线性表。栈顶是允许插入和删除的一端,栈底是不允许插入和删除的一端,可以进行括号匹配
队列是一种先进先出(FIFO)的线性表,它只允许在表的一端插入元素,而在表的另一端删除元素。允许插入元素的一端称为队尾(Rear),允许删除元素的一端称为队头(Front)。
循环队列:
队空条件:head = tail
队满条件:(tail+1)%size = head
2.5 串、数组、矩阵和广义表
2.5.1 串
串是仅由字符构成的有限序列,是取值范围受限的线性表。
一般记为S = 'a1 a2 ~~~ an'
,其中S是串名,a1 a2 an是串值。
- 空串:长度为零的串,空串不包含任何字符,
- 空格串:由一个或多个空格组成的串。
- 子串:由串中任意长度的连续字符构成的序列。含有子串的串称为主串。子串在主串中的位置指子串首次出现时,该子串的第个字符在主串中的位置。空串是任意串的子串。
- 串相等:指两个串长度相等且对应位置上的字符也相同,
- 串比较:两个串比较大小时以字符的ASCII码值作为依据。比较操作从两个串的第一个字符开始进行,字符的ASCI码值大者所在的串为大;若其中一个串先结束,则以串长较大者为大。
对串进行的基本操作有以下几种:
- 赋值操作
StrAssign(s,)
:将串t的值赋给串s - 连接操作
Concat(s,t)
:将串t接续在串s的尾部,形成一个新串 - 求串长
StrLength(s)
:返回串s的长度 - 串比较
StrCompare(s,t)
:比较两个串的大小。 - 求子串
SubString(start,len)
:返回串s中从start开始的、长度为len的字符序列。
串的存储结构:
- 串的顺序存储:定长存储结构
- 串的链式存储:块链
子串的定位操作通常称为串的模式匹配,它是各种串处理系统中最重要的运算之一。子串也称为模式串。
2.5.2 数组
2.5.3 矩阵
2.5.4 广义表
2.6 树和二叉树
2.7 图
2.8 查找
顺序查找
折半查找
取整
mid = (low + high)/2
6 = (1+12)/2
第二次取的时候取整个左区域,不取mid,mid已经比较过了
分块查找
块内无序,块间有序
第一步在索引表中确定待查记录所在的快,第二部在块内顺序查找
哈希表(散列表)
对冲突的解决:
开放地址法、链地址法、再哈希法、建立一个公共溢出区
2.9 排序
排序就是重新排列列表中的元素,使表中元素按照关键字有序的过程
- 内部排序就是在内存中的排序,外部排序就是进入外部的一些存储器进行排序
- 稳定排序就是数组中有一堆数字,其中有俩21,排完序前面的21还在前面就是稳定排序
排序方法:
- 插入类排序:直接插入排序、希尔排序
- 交换类排序:冒泡排序、快排
- 选择类排序:简单选择排序、堆排序
- 归并排序:基数排序
直接插入排序
算法思想:每次将一个代排序的记录按照其关键字大小插入到前面已排好的子序列中,直到全部记录插入完成
希尔排序
先将待排序表分割成若干形如L[i,i+d,i+2d,...,i+kd]
的特殊子表,对各个子表分别进行直接插入排序。缩小增量d,重复上述过程,直到d=1
冒泡排序
从后往前(或从前往后)两两比较相邻元素的值,若为逆序(A[i-1]>A[i]
),交换,直到比较完,称为一趟冒泡
快排
在待排序表L[1...n]
中任取一个元素pivot作为枢轴(或基准,通常取首元素),通过一趟排序将待排序表划 分为独立的两部分L[1...k-1]
和L[k+1...n]
,使得L[1...k-1]
中的所有元素小于pivot
,L[k+1...n]
中的所有元素大于等于pivot
,则pivot
放在了其最终位置L(k)
上,这个过程称为一次划分然后分别递归地对两个子表重复上述过程,直到每部分内只有一个元素或空为止,即所有元素放在了其最终位置上。
简单选择排序
每一趟在待排序元素中选取关键字最小的元素加入有序子序列
堆排序
设有n个元素的序列{K1,K2,... Kn}
,当且仅当满足下述关系之时,称之为堆。
- Ki ≤ K2i;且Ki ≤ K2i+1
- Ki ≥ K2i;且Ki ≥ K2i+1
假设有数组A={1,3,4,5,7,2,6,8,0},初建大顶堆过程如下:
堆顶元素是堆的最大值
归并排序
把两个或多个已经有序的序列合并成一个
基数排序
基数排序是一种借助多关键字排序思想对单逻辑关键字进行排序的方法。
基数的选择和关键字的分解是根据关键字的类型来决定的。例如关键字是十进制数,则按个位、十位来分解。