数据结构与算法笔记——1绪论

学习自《数据结构与算法 Python语言描述》机械工业出版社。记录一些要点，以供加深记忆和日后查阅。

1. 算法和算法分析

1.1 问题、实例和算法

三个基本概念：

问题：需要解决的一个具体需求。
实例：以上问题的一个具体例子。
算法：一种计算过程的严格描述。

算法的性质：

有穷性：算法的描述由有限条语句构成，对任何问题在有限的时间内获得解答。
可行性：语句严格、简单明确，可以被机械执行。
确定性：对于确定的输入产生确定的输出。
明确的输入/输出。

算法的描述：

自然语言描述：容易阅读，冗长繁琐，易有歧义。
数学公式描述：更加简洁严格。
形式化记法描述：如图灵机模型。
编程语言描述：简洁清晰，涉及语言细节，不易移植。
伪代码描述：不拘泥于具体语言形式。

算法思想（设计模式）：

枚举法：在解决简单问题时十分有效。
贪心法：由部分解逐步扩充得到整体的解。
分治法：把复杂问题分解为相对简单的子问题。
回溯法：通过探索的方式求解，当后面的求解步骤无法继续时，退回到前面的步骤，另行选择求解路径。
动态规划法：在前面的步骤中积累信息，在后续步骤中使用已知信息。
分支限界法：在搜索的过程中逐步缩小求解的范围。

1.2 算法的代价及其度量

算法分析就是很对一个具体算法，设法确定一种函数关系，以问题实例的某种规模n为参量，反映出这个算法在处理该规模实例时所需要付出的时间或空间代价。

实例的规模采用什么来度量？方阵的行数、元素个数还是维度
完成某一算法平均需要多少时间，最长需要多少时间？

对于抽象的算法，通常无法做出精确度量。在这种情况下只能退而求其次，设法估计算法复杂性的量级。对于算法的时间和空间性质，最重要的是其量级和趋势，这些是代价的主要部分，而代价函数的常量因子可以忽略不计。

大O记法：对于单调的整数函数f，如果存在一个整数函数g和实常数c>0，使得对于充分大的n总有f(n)<=c*g(n)，就说函数g是f的一个渐进函数，记为f(n)=O(g(n))。由此可以描述算法的时间复杂度和空间复杂度。

常用渐进复杂度函数：

O(1), O(log n), O(n), O(n log n), O(n^2), O(n^3), O(2^n)

算法的复杂度反过来决定了算法的可用性。如果算法的复杂度较低，就可能用于解决很大的实例，而复杂度很高的算法只能用于很小的实例。

1.3 算法分析

考虑最基本的循环程序，其中只有顺序组合、条件分支和循环结构。分析这种算法只需要几条基本计算规则：

（1）基本操作，认为其时间复杂度为O(1)。如果是函数调用，应将其时间复杂度代入，参与整体时间复杂度的计算。

（2）加法规则（顺序复合）。如果算法是两个或多个部分的顺序复合，其复杂度是这两部分或多个部分之和。

T(n)=T1(n)+T2(n)=O(T1(n)+T2(n))=O(max(T1(n),T2(n)))

由于忽略了常量因子，加法等价于求最大值。

（3）乘法规则（循环结构）。如果算法是一个循环，循环体将执行T1(n)次，每次执行需要T2(n)时间，那么

T(n)=T1(n)*T2(n)=O(T1(n))*O(T2(n))=O(T1(n)*T2(n))

（4）取最大规则（分支结构）。如果算法是条件分支，两个分支的时间复杂性分别为T1(n)和T2(n)，则有

T(n)=O(max(T1(n),T2(n)))

1.4 Python程序的计算代价

1.4.1 时间开销

基本算术运算和逻辑运算是常量时间的。
组合对象的操作有些是常量时间的，有些不是。

复制和切片操作通常需要线性时间；
list和tuple的元素访问和元素赋值是常量时间的；
dict的操作情况比较复杂。

字符串也应当看作组合对象，其许多操作不是常量时间的。
创建对象也需要付出时间和空间，其代价都与对象的大小有关。
构造新结构。构造新的空结构（空表、空集合等）是常量时间操作，而构造一个包含n个元素的结构则需要O(n)时间。
关于list：表元素访问和元素修改是常量时间操作，但一般的加入/删除元素操作是O(n)的操作。
关于字典：一般效率较高，但偶尔也会出现效率低的情况。
在表的最后加入和删除元素的效率高，而在中间位置插入和删除元素的效率低，应优先选择前者。

1.4.2 空间开销

在程序里使用任何类型的对象，都需要付出空间的代价。

相对而言，表和元组是比较简单的结构，而集合和字典需要支持快速查询等操作，其结构更加复杂。

python中各种组合数据对象都没有预设的最大元素个数，这些结构可以根据元素个数的增长自动扩充空间。
组合对象的实际空间开销在存续期内可能变大，但通常不会自动缩小（即使后来元素个数变少了）。

在程序开发时，不但要选择好的算法，还要考虑每一步的良好实现。

Python等高级程序语言存在一些“效率陷阱”，可能会大量浪费计算机的时间和空间。

2. 数据结构

用计算机解决问题，可以看作实现某种信息表示的转换。

需要处理的信息越复杂，处理计算过程越复杂，良好的数据组织结构就越重要。

2.1 数据结构及其分类

2.1.1 信息、数据和数据结构

信息：任何存在着的事物，其形态和运动都蕴含着信息。

数据：计算机程序能够处理的符号形式的总和，即编码的信息。

数据结构：研究数据之间的关联和组合的形式，总结其中的规律，发掘特别值得注意的有用结构，研究这些结构的性质，进而研究如何在计算机里实现这些有用的数据结构，以支持响应组合数据的高效使用，支持处理它们的高效算法。

2.1.2 抽象定义与重要类别

一般定义：一个具体的数据结构就是一个二元组

D=(E,R)

E是数据结构D的元素集合，R是D的元素之间的某种关系。

典型数据结构：

集合：元素间没有明确关系，R为空。
序列结构：数据元素间有一个明确的先后关系，存在一个排位在最前的元素，除了最后的元素外，每个元素都一个唯一的后继元素。R为线性顺序关系。这种结构也称为线性结构。还有一些变形，如环形结构。
层次结构：数据元素属于一些不同的层次，一个上层元素可以关联一个或多个下层元素。
树形结构：层次结构中最简单的一种。只有一个最上层元素，称为根，，除根之外的每个元素，都有且仅有一个上层元素与之关联。
图结构：数据元素之间可以有任意复杂的互相联系。广义，包含上面几种，上面几种可以看作图的受限形式。

另一类数据结构：并没有对其元素的相互关系提出任何结构性的规定，而是要求其在某种计算中实现有用的功能，最基本的有数据元素的存储和访问。

功能性数据结构：栈、队列、优先队列、字典等。

2.2 计算机内存对象表示

内存是CPU可以直接访问的数据存储设备，保存在外存里的数据必须先装入内存，而后CPU才能使用它们。

内存单元具有唯一编号，成为单元地址。全部可用地址为从0开始的一个连续的正整数区间。

在程序执行中，对内存单元的访问都通过地址进行。64位计算机一次可以存取8个字节的数据。

基于地址访问内存单元是一个O(1)操作，与单元的位置或整个内存的大小无关。

在计算机内存里表示数据元素之间的联系，只有两种基本技术：

顺序表示：利用数据元素的存储位置隐式表示。显然序列数据类型中的元素线性关系可以用这种方式表示。
把数据元素之间的联系也看作一种数据，显式地保存在内存中。用这种方式可以表示数据元素之间任意复杂的关系，因此这种技术的功能更强大。

2.3 Python对象和数据结构

Python语言的实现基于一套精心设计的链接结构，变量与其值对象的关联通过链接的方式实现，对象之间的联系同样通过链接。

Python程序内部有一个存储管理系统，负责管理可用内存，为各种对象安排存储，支持灵活有效的内存使用。程序中要求建立对象时，管理系统就会为其安排存储，某些对象不再有用时则回收其占用的存储。管理系统屏蔽了具体内存使用的细节，大大减少了编程人员的负担。

posted @ 2021-08-13 11:07 叮叮当当sunny 阅读(189) 评论(0) 编辑收藏举报

刷新页面返回顶部

叮叮当当sunny

欢迎关注b站账号“叮叮当当sunny”
个人博客 http://dingdangsunny.cn/

数据结构与算法笔记——1绪论

1. 算法和算法分析

1.1 问题、实例和算法

1.2 算法的代价及其度量

1.3 算法分析

1.4 Python程序的计算代价

1.4.1 时间开销

1.4.2 空间开销

2. 数据结构

2.1 数据结构及其分类

2.1.1 信息、数据和数据结构

2.1.2 抽象定义与重要类别

2.2 计算机内存对象表示

2.3 Python对象和数据结构

公告

叮叮当当sunny

欢迎关注b站账号“叮叮当当sunny” 个人博客 http://dingdangsunny.cn/

数据结构与算法笔记——1绪论

1. 算法和算法分析

1.1 问题、实例和算法

1.2 算法的代价及其度量

1.3 算法分析

1.4 Python程序的计算代价

1.4.1 时间开销

1.4.2 空间开销

2. 数据结构

2.1 数据结构及其分类

2.1.1 信息、数据和数据结构

2.1.2 抽象定义与重要类别

2.2 计算机内存对象表示

2.3 Python对象和数据结构

公告

欢迎关注b站账号“叮叮当当sunny”
个人博客 http://dingdangsunny.cn/