信息安全系统设计基础第十三周学习总结
第十一章 网络编程
第一节 客户端-服务器编程模型
- 每个网络应用都是基于客户端-服务器模型的。采用这个模型,一个应用是由一个服务器户端提供某种服务。服务器管理某种资源,并且通过操作这种资源来为它的客户端提供某种服务。—个FTP服务器就管理了一组磁盘文件,它为客户端进行它会为客户端进行存储和检索。相似地一个电子邮件服务器管理了一些文件,它为客户端进行读和更新。
- 客户端-服务器模型中的基本操作是事务
-
事务由四步组成:
1)当一个客户端需要服务时,它向服务器发送一个请求,发起一个事务。例如,当Web览器需要一个文件时,它就发送一个请求给Web服务器 2)服务器收到请求后,解释它,并以适当的方式操作它的资源。例如,当Web服务器收到浏览器发出的请求后,它就读一个磁盘文件 3)服务器给客户端发送一响应,并等待下一个请求。例如,Web服务器将文件发送回客户端; 4)客户端收到响应并处理它。例如,当Web浏览器收到来自服务器的一页后,它就在屏幕上显示此页。
第二节 网络
- 客户端和服务器通常运行在不同的主机上,并且通过计算机网络的硬件和软件资源来通信。网络是复杂的系统,在这里我们只想了解一点皮毛。我们的目标是从程序员的角度给你一个可工作的思考模型。对于一个主机而言,网络只是又一种I/O设备,作为数据源和数据接收方,如图所示。一个插到I/O总线扩展槽的适配器提供了到网络的物理接口。从网络上接收到的数据从适配器经过I/O和存储器总线拷贝到存储器,典型地是通过DMA(译者注:直接存储器存取方式)传送。相似地,数据也能从存储器拷贝到网络。
- 一个以太网段,包括电缆和集线器;每根电缆都有相同的最大位带宽;集线器不加分辩地将一个端口上收到的每个位复制到其他所有的端口上。因此,每台主机都能看到每个位。
- 每个以太网适配器都有—个全球唯一的48位地址,它存储在这个适配器的非易失性存储器上。每个主机适配器都能看到这个帧,但是只有目的主机实际读取它。
- 桥接以太网 由 电缆和网桥 将多个以太网段连接起来,形成的较大的局域网。连接网桥的电缆传输速率可以不同(例:网桥与网桥之间1GB/S, 网桥与集线器之间100MB/S)。
- 网桥作用:连接不同网段。同一网段内A向B传输数据时,帧到达网桥输入端口,网桥将其丢弃,不予转发。A向另一网段内C传输数据时,网桥才将帧拷贝到与相应网段连接的端口上。
-
局域网由集线器和网桥及连接的电缆组成。
第三节 全球ip因特网
- 全球IP因特网是最著名和最成功的互联网络实现。从1969年起,它就以这样或那样的形式存在了。虽然因特网的内部体系结构复杂而且不断变化,但是自从20世纪80年代早期以来,客户端-服务器应用的组织就一直保持相当的稳定。下图展示了一个因特网客户端-服务器应用程序的基本硬件和软件组织。每台因特网主机都运行实现TCP/TP协议的软件,几乎每个现代计算机系统都支持这个协议。因特网的客户端和服务器混合使用套接字接口函数和Unix I/O函数来进行通信。套接字函数典型地是作为会陷入内核的系统调用来实现的,并调用各种内核模式的TCP/IP函数。
ip地址
- 一个IP地址就是一个32位无符号整数。
- 网络程序将IP地址存放在下图所示的IP地址结构中。
- 因为因特网主机可以有不同的主机字节顺序,TCP/IP为任意整数数据项定义了统一的网络字节顺序(大端字节顺序)例如IP地址,它放在包头中跨过网络被携带。在IP地址结构中存放的地址总是以(大端法)网络字节顺序存放的,即使主机字节顺序是小端法。
因特网域名
- 因特网客户端和服务器互相通信时使用的是IP地址。然而,对于人们而言,大整数是很难记住的,所以因特网也定义了一组更加人性化的域名,以及一种将域名映射到IP地址的机制。域名是一串用句点分隔的单词(字母、数字和破折号)。
- 域名集合形成了一个层次结构,每个域名编码了它在这个层次中的位置。通过一个示例你将很容易理解这点。下展示了域名层次结构的一部分。层次结构可以表示为一棵树。树的节点表示城名,反向到根的路径形成了域名。子树称为子域。层次结构中的第一层是个未命名的根节点。下一层是一组一级域名由非赢利组织(因特网分酒名字数字协会)定义。常见的第一层域名包括com、edu、gov、org、net,这些域名是由ICANN的各个授权代理按照先到先服务的基础分配的的。一旦一个组织得到了一个二级域名,那么它就可以在这个子域中创建任何新的域名了。
因特网连接
- 因特网客户端和服务器通过在连接上发送和接收字节流来通信。从连接一对进程的意义上而言,连接是点对点的。从数据可以同时双向流动的角度来说,它是全双工的。并且从(除了一些如粗心的耕锄机操作员切断了电缆引起灾对性的失败以外)由源进程发出的字节流最终被目的进程以它发出的顺序收到它的角度来说,它也是可靠的。
- 一个套接字是连接的一个端点。每个套接字都有相应的套接字地址,是由一个因特网地址和一个16位的整数端口组成的,用“地址:端口”来表示。当客户端发起一个连接请求时,客户端套接字地址中的端口是由内核自动分配的,称为临时端口。然而,服务器套接字地址中的端口通常是某个知名的端口,是和这个服务相对应的。例如,web服务器通常使用端口80,电子邮件服务器使用端口25。
第四节 套接字接口
套接字地址结构
- 从Unix内核的角度来看,一个套接字就是通信的一个端点。
socket函数
- Socket函数客户端和服务器使用函数来创建一个套接字描述符.
- 其中,AF_INET表明我们正在使用因特网,而SCKET_STREAM表示这个套接字是因特网连接一个端点。Socket返回的clientfd描述符仅是部分打开的,还不能用于读写。如何完成打开套接字的工作,取决于我们是客户端还是服务器。
connect函数
- 客户端通过connect函数来建立和服务器的连接。
- connect函数试图与套接字地址为serv_addr的服务器建立一个因特网连接,其中addrlen是size of ( sockaddr_in )。Connect函数会阻塞,一直到连接成功建立或是发生错误如果成功,sockfd描述符现在就准备好可以读写了,并且得到的连接是由套接字对刻画的。
open_clientfd函数
bind函数
listen函数
- listen函数将sockfd从一个主动套接字转化为一个监听套接字。该套接字可以接受来自客户端的连接请求。backlog参数暗示了内核在开始拒绝连接请求之前,该放入队列中等待的未完成连接请求的数量
open_listenfd函数
accept函数
第五节 web服务器
web基础
- Web客户端和服务器之间的交互用的是一个基于文本的应用级协议,叫做HTTP。
- HTTP是一个简单的协议。一个web客户端(即浏览器)打开一个到服务器的因特网连接。浏览器读取这些内容,并请求某些内容。服务器响应所请求的内容,然后关闭连接。浏览器读取并把它显示在屏幕内
- 主要的区别是Web内容可以用HTML来编写。一个HTML程序(页)包含指令(标记)它们告诉浏览器如何显示这页中的各种文本和图形对象。
web内容
Web服务器以两种不同的方式向客户端提供内容:
- 取一个磁盘文件,并将它的内容返回给客户端。
- 运行一个可执行文件,并将它的输出返回给客户端。
http事务
- http请求
- http响应
服务动态内容
- 客户端如何将程序参数传递给服务器
- 服务器如何将参数传递给子进程
- 服务器如何将其他信息传递给子进程
- 子进程将它的输出发送到哪里
第十二章 并发编程
三种基本的构造并发程序的方法:
进程
I/O多路复用
线程
第一节 基于进程的并发编程
构造并发程序最简单的方法——用进程
常用函数如下:
- fork
- exec
- waitpid
1.父进程需要关闭它的已连接描述符的拷贝(子进程也需要关闭)
2.必须要包括一个SIGCHLD处理程序来回收僵死子进程的资源
3.父子进程之间共享文件表,但是不共享用户地址空间,这个在以前的学习过程中提到过
第二节 基于I/O多路复用的并发编程
就是使用select函数要求内核挂起进程,只有在一个或多个I/O事件发生后,才将控制返回给应用程序。
select函数处理类型为fd_set的集合,即描述符集合,并在逻辑上描述为一个大小为n的位向量,每一位b[k]对应描述符k,但当且仅当b[k]=1,描述符k才表明是描述符集合的一个元素。
描述符能做的三件事:
- 分配他们
- 将一个此种类型的变量赋值给另一个变量
- 用FD_ZERO、FD_SET、FD_CLR和FD_ISSET宏指令来修改和检查它们
基于I/O多路复用的并发事件驱动服务器
事件驱动程序:将逻辑流模型化为状态机。
状态机:
- 状态
- 输入事件
- 转移
对于状态机的理解,参考EDA课程中学习的状态转换图的画法和状态机。
整体的流程是:
- select函数检测到输入事件
- add_client函数创建新状态机
- check_clients函数执行状态转移(在课本的例题中是回送输入行),并且完成时删除该状态机。
几个需要注意的函数:
- init_pool:初始化客户端池
- add_client:添加一个新的客户端到活动客户端池中
- check_clients:回送来自每个准备好的已连接描述符的一个文本行
I/O多路复用技术的优劣
1.优点
- 相较基于进程的设计,给了程序员更多的对程序程序的控制
- 运行在单一进程上下文中,所以每个逻辑流都可以访问该进程的全部地址空间,共享数据容易实现
- 可以使用GDB调试
- 高效
2.缺点
- 编码复杂
- 不能充分利用多核处理器
第三节 基于线程的并发编程
这种模式混合了以上两种方法
线程:就是运行在进程上下文中的逻辑流。
每个线程都有它自己的线程上下文:
- 一个唯一的整数线程ID——TID
- 栈
- 栈指针
- 程序计数器
- 通用目的寄存器
- 条件码
线程执行模型
1.主线程
在每个进程开始生命周期时都是单一线程——主线程,与其他进程的区别仅有:它总是进程中第一个运行的线程。
2.对等线程
某时刻主线程创建,之后两个线程并发运行。
每个对等线程都能读写相同的共享数据。
3.主线程切换到对等线程的原因:
- 主线程执行一个慢速系统调用,如read或sleep
- 被系统的间隔计时器中断
切换方式是上下文切换
对等线程执行一段时间后会控制传递回主线程,以此类推
4.线程和进程的区别
- 线程的上下文切换比进程快得多
- 组织形式:
- 进程:严格的父子层次
- 线程:一个进程相关线程组成对等(线程)池,和其他进程的线程独立开来。一个线程可以杀死它的任意对等线程,或者等待他的任意对等线程终止。
Posix线程
Posix线程是C程序中处理线程的一个标准接口。基本用法是:
- 线程的代码和本地数据被封装在一个线程例程中
- 每个线程例程都以一个通用指针为输入,并返回一个通用指针。
创建线程
1.创建线程:pthread_create函数
创建一个新的线程,带着一个输入变量arg,在新线程的上下文运行线程例程f。
attr默认为NULL
参数tid中包含新创建线程的ID
2.查看线程ID——pthread_self函数
返回调用者的线程ID(TID)
终止线程
1.终止线程的几个方式:
- 隐式终止:顶层的线程例程返回
- 显示终止:调用pthread_exit函数 *如果主线程调用,会先等待所有其他对等线程终止,再终止主线程和整个进程,返回值为pthread_return
- 某个对等线程调用Unix的exit函数,会终止进程与其相关线程
- 另一个对等线程通过以当前线程ID作为参数调用pthread_cancle来终止当前线程
2.pthread_exit函数
3.pthread_cancle函数
回收已终止线程的资源
用pthread_join函数,这个函数会阻塞,知道线程tid终止,将线程例程返回的(void*)指针赋值为thread_return指向的位置,然后回收已终止线程占用的所有存储器资源
分离线程
在任何一个时间点上,线程是可结合的,或是分离的。
1.可结合的线程
- 能够被其他线程收回其资源和杀死
- 被收回钱,它的存储器资源没有被释放
- 每个可结合线程要么被其他线程显式的收回,要么通过调用pthread_detach函数被分离
2.分离的线程
- 不能被其他线程回收或杀死
- 存储器资源在它终止时由系统自动释放
3.pthread_detach函数
线程能够通过以pthread_self()为参数的pthread_detach调用来分离他们自己。
第四节 多线程程序中的共享变量
一、线程存储器模型
寄存器从不共享,虚拟存储器总是共享的。
二、将变量映射到存储器
三、共享变量
变量v是共享的——当且仅当它的一个实例被一个以上的线程引用。
第五节 用信号量同步线程
一、进度图
进度图是将n个并发线程的执行模型化为一条n维笛卡尔空间中的轨迹线,原点对应于没有任何线程完成一条指令的初始状态。
当n=2时,状态比较简单,是比较熟悉的二维坐标图,横纵坐标各代表一个线程,而转换被表示为有向边
转换规则:
- 合法的转换是向右或者向上,即某一个线程中的一条指令完成
- 两条指令不能在同一时刻完成,即不允许出现对角线
- 程序不能反向运行,即不能出现向下或向左
而一个程序的执行历史被模型化为状态空间中的一条轨迹线。
线程循环代码的分解:
- H:在循环头部的指令块
- L:加载共享变量cnt到线程i中寄存器%eax的指令。
- U:更新(增加)%eax的指令
- S:将%eax的更新值存回到共享变量cnt的指令
- T:循环尾部的指令块
几个概念
- 临界区:对于线程i,操作共享变量cnt内容的指令L,U,S构成了一个关于共享变量cnt的临界区。
- 不安全区:两个临界区的交集形成的状态
- 安全轨迹线:绕开不安全区的轨迹线
二、信号量
信号量实现互斥的基本原理;
定义对信号量的两个原子操作——P和V
P(wait) 进程阻塞; 进程进入s.queue队列; end;
V(signal)唤醒队首进程; 将进程从s.queue阻塞队列中移出; end;
三、使用信号量来实现互斥
wait(s)/signal(s)的应用
- 进程进入临界区之前,首先执行wait(s)原语,若s.count<0,则进程调用阻塞原语,将自己阻塞,并插入到s.queue队列排队;
- 注意,阻塞进程不会占用处理机时间,不是“忙等”。直到某个从临界区退出的进程执行signal(s)原语,唤醒它;
- 一旦其它某个进程执行了signal(s)原语中的s.count+1操作后,发现s.count ≤0,即阻塞队列中还有被阻塞进程,则调用唤醒原语,把s.queue中第一个进程修改为就绪状态,送就绪队列,准备执行临界区代码。
- wait操作用于申请资源(或使用权),进程执行wait原语时,可能会阻塞自己;
- signal操作用于释放资源(或归还资源使用权),进程执行signal原语时,有责任唤醒一个阻塞进程。
三、利用信号量来调度共享资源
信号量有两个作用:
- 实现互斥
- 调度共享资源
信号量的物理意义
- s.count >0表示还可执行wait(s)而不会阻塞的进程数(可用资源数)。每执行一次wait(s)操作,就意味着请求分配一个单位的资源。
- 当s.count ≤0时,表示已无资源可用,因此请求该资源的进程被阻塞。此时,s.count的绝对值等于该信号量阻塞队列中的等待进程数。执行一次signal操作,就意味着释放一个单位的资源。若s.count<0,表示s.queue队列中还有被阻塞的进程,需要唤醒该队列中的第一个进程,将它转移到就绪队列中。
第七节 其他并发问题
一、线程安全性
一个线程是安全的,当且仅当被多个并发线程反复的调用时,它会一直产生正确的结果。
四个不相交的线程不安全函数类以及应对措施:
- 不保护共享变量的函数——用P和V这样的同步操作保护共享变量
- 保持跨越多个调用的状态的函数——重写,不用任何static数据。
- 返回指向静态变量的指针的函数——①重写;②使用加锁-拷贝技术。
- 调用线程不安全函数的函数——参考之前三种
二、可重入性
当它们被多个线程调用时,不会引用任何共享数据。
1.显式可重入的:
所有函数参数都是传值传递,没有指针,并且所有的数据引用都是本地的自动栈变量,没有引用静态或全剧变量。
2.隐式可重入的:
调用线程小心的传递指向非共享数据的指针。
三、竞争
1.竞争发生的原因:
一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的x点。也就是说,程序员假定线程会按照某种特殊的轨迹穿过执行状态空间,忘了一条准则规定:线程化的程序必须对任何可行的轨迹线都正确工作。
2.消除方法:
动态的为每个整数ID分配一个独立的块,并且传递给线程例程一个指向这个块的指针
四、死锁
解决死锁的方法
a.不让死锁发生:
- 静态策略:设计合适的资源分配算法,不让死锁发生---死锁预防;
- 动态策略:进程在申请资源时,系统审查是否会产生死锁,若会产生死锁则不分配---死锁避免。
b.让死锁发生:
进程申请资源时不进行限制,系统定期或者不定期检测是否有死锁发生,当检测到时解决死锁----死锁检测与解除。