数据结构与算法——绪论

绪论

数据结构基本概念

数据

数据是信息的载体，是描述客观事物属性的数、字符及所有能输入到计算机中并被计算机程序识别和处理的符号的集合。数据是计算机程序加工的原料。

数据元素

数据元素是数据的基本单位，通常作为一个整体进行考虑和处理。

数据项

一个数据元素可由若干数据项组成，数据项是构成数据元素的不可分割的最小单位。

每一波顾客都属于一个数据元素，而顾客中保存的基本信息就是一个一个的数据项。

数据结构

数据结构是相互之间存在一种或多种特定关系的数据元素集合。

例如：海底捞排队顾客信息和他们之间的关系。

数据对象

数据对象是具有相同性质的数据元素的集合，是数据的一个子集。

如上的例子，在呷脯呷脯门店排队的顾客信息与在海底捞排队顾客信息没有关系。但全国所有门店的排队顾客信息就组成了数据对象。

数据结构的三要素

主要包括逻辑结构、物理结构以及数据的运算。

逻辑结构

数据元素之间的逻辑关系是什么？

集合

各个元素同属于一个集合，除此之外别无其它关系。

线性结构

数据元素之间是一对一的关系。除了第一个元素，所有元素都有唯一前去；除了最后一个元素，所有元素都有唯一后继。

树形结构

数据元素之间是一对多的关系。

网状结构

数据元素之间是多对多的关系。

物理结构（存储结构）

如何用计算机表示数据元素的逻辑关系？

顺序存储

把逻辑上相邻的元素存储在物理位置上也相邻的存储单元中，元素之间的关系由存储单元的邻接关系来体现。

链式存储

逻辑上相邻的元素在物理地址上可以不相邻，借助只是元素存储地址的指针来表示元素之间的逻辑关系。

索引存储

在存储元素信息的同时，还建立附加的索引表。索引表中的每项称为索引项，索引项的一般形式为(关键字, 地址)

散列存储

根据元素的关键字直接计算出该元素的存储地址，又称哈希(Hash)存储。

绪论部分需要了解的三点：

若采用顺序存储，则各个数据元素在物理上必须是连续的；若采用非顺序存储，则各个数据元素在物理上可以是离散的。
数据的存储结构会影响存储空间分配的方便程度。
数据的存储结构会影响对数据运算的速度。

数据的运算

施加在数据上的运算包括运算的定义和实现。

运算的定义是针对逻辑结构的，指出运算的功能；

运算的实现是针对存储结构的，指出运算的具体操作步骤。

数据类型

是一个值的集合和定义在此集合上的一组操作的总称。

原子类型：其值不可再分的数据类型
结构类型：其值可以再分解为若干成分（分量）的数据类型

算法基本概念

什么是算法

程序 = 数据结构 + 算法

数据结构：如何把现实世界的问题信息化，将信息存进计算机。同时还要实现对数据结构的基本操作。

算法：如何处理这些信息，已解决实际问题。

算法的五个特性

有穷性

一个算法必须总在执行有穷步之后结束，且每一步都可在有穷时间内完成。

算法必须是有穷的，而程序可以是无穷的。

有穷指的是用有限的步骤解决某个特定的问题。

确定性

算法中每条指令必须有确切的含义，对于相同的输入只能得出相同的输出。

可行性

算法中描述的操作都可以通过已经实现的基本运算执行有限次来实现。

输入

一个算法有零个或多个输入，这些输入取自于某个特定的对象的集合。

输出

一个算法有一个或多个输出，这些输出是与输入有着某种特定关系的量。

好算法的特质

正确性

算法应能够正确地解决求解问题。

可读性

算法应具有良好的可读性，以帮助人们理解。

算法可以用伪代码描述，甚至用文字描述。重要的是要“无歧义”地描述出解决问题的步骤。

健壮性

输入非法数据时，算法能适当地做出反应或进行处理，而不会产生莫名其妙的输出结果。

高效率和低存储量需求

执行速度快，时间复杂度低

不费内存，空间复杂度低

算法效率的度量

时间复杂度

如何评估算法的时间开销？

让算法先运行，事后统计运行时间？

存在的问题：

和机器性能有关，如：超级计算机 vs 单片机
和编程语言有关，越高级的语言执行效率越低
和编译程序产生的机器指令质量有关
有些算法是不能时候再统计的，如：导弹控制算法

引入算法的时间复杂度

即事先预估算法的时间开销T(n)与问题规模n的关系

看一下如下的代码：

1void loveYou(int n) {
2    // n为问题的规模
3    int i = 1;
4    while(i <= n) {
5        i++;
6        cout<<"I love you " << i << endl;
7    }
8    cout << "I love you more than " << i << endl;
9}

3——1次

4——n+1次

56——n次

8——1次

故时间开销与问题规模n的关系：T(n) = 3n + 3

当n足够大的时候，我们只要取最高阶就足以表示出时间开销。

O表示“同阶”，同等数量级。所以我们可以省区最高阶前面的参数。

T1(n)=3n+3 ---> T1(n)=O(n)

T2(n)=n^2+3n+1000 ----> T2(n)=O(n^2)

结论：只考虑最高阶，使用O记法表示

加法规则

多项相加，只保留最高阶的项，且系数变为1

乘法规则

多项相乘，都保留

复杂度排序

常对幂指阶

结论

顺序执行的代码只会影响常数项，可以忽略
只需挑循环中的一个基本操作分析它的执行次数与n的关系即可
如果有多层嵌套循环，只需关注最深层的循环与n的次数

小练习

// 搜索
void search(int flag[], int n) {
    for(int i=0; i<n; i++) {
        if(flag[i] == n) {
            cout<<"找到了元素" << n<<endl;
            break;
        }
    }
}

int main() {
    // flag数组中乱序存放了 1-n 这些数
    int flag[n] = {}
    search(flag, n)
}

最好的情况：元素n在第一个位置

最坏的情况：元素n在最后一个位置

平均情况：假设元素n在任意一个位置的概率相同为1/n

空间复杂度

还是以上面的例子

1void loveYou(int n) {
2    // n为问题的规模
3    int i = 1;
4    while(i <= n) {
5        i++;
6        cout<<"I love you " << i << endl;
7    }
8    cout << "I love you more than " << i << endl;
9}

无论问题规模最么变化，算法运行所需要的内存都是固定的常量，算法空间复杂度为S(n) = O(1)

注：S表示Space

posted @ 2022-06-11 09:59 Gazikel 阅读(67) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

把你的脸迎向阳光，那就不会有阴影