20145203 《信息安全系统设计基础》第十三周学习总结
20145203 《信息安全系统设计基础》第十三周学习总结
第十二章 并发编程
教材学习内容总结
绪论
三种基本的构造并发程序的方法:
①进程:
每个逻辑控制流是一个进程,由内核进行调度,进程有独立的虚拟地址空间
②I/O多路复用:
逻辑流被模型化为状态机,所有流共享同一个地址空间
③线程:
运行在单一进程上下文中的逻辑流,由内核进行调度,共享同一个虚拟地址空间
第一节 基于进程的并发编程
构造并发程序最简单的方法——用进程
1、常用函数如下:
- fork
- exec
- waitpid
2、构造并发服务器
在父进程中接受客户端连接请求,然后创建一个新的子进程来为每个新客户端提供服务。
需要注意的事情:
①父进程需要关闭它的已连接描述符的拷贝(子进程也需要关闭)
②必须要包括一个SIGCHLD处理程序来回收僵死子进程的资源
③父子进程之间共享文件表,但是不共享用户地址空间。
3、进程的独立地址空间
①优点:防止虚拟存储器被错误覆盖
②缺点:开销高,共享状态信息才需要IPC机制
第二节 基于I/O多路复用的并发编程
就是使用select函数要求内核挂起进程,只有在一个或多个I/O事件发生后,才将控制返回给应用程序。
1、select函数:select函数处理类型为fd_set的集合,即描述符集合,并在逻辑上描述为一个大小为n的位向量,每一位b[k]对应描述符k,但当且仅当b[k]=1,描述符k才表明是描述符集合的一个元素。
2、描述符能做的三件事:
- 分配他们
- 将一个此种类型的变量赋值给另一个变量
- 用FD_ZERO、FD_SET、FD_CLR和FD_ISSET宏指令来修改和检查它们
3、什么时候可以读?
当且仅当一个从该描述符读取一个字节的请求不会阻塞时
注意:
每次调用select函数时都需要更新读集合
4、基于I/O多路复用的并发事件驱动服务器
事件驱动程序:将逻辑流模型化为状态机。
状态机:
- 状态:等待描述符d[k]准备好可读
- 输入事件:描述符d[k]准备好,可以读了
- 转移:从描述符d[k]读一个文本行
整体的流程是:
- select函数检测到输入事件
- add_client函数创建新状态机
- check_clients函数执行状态转移(在课本的例题中是回送输入行),并且完成时删除该状态机。
用到的函数:
- init_pool:初始化客户端池
- add_client:添加一个新的客户端到活动客户端池中
- check_clients:回送来自每个准备好的已连接描述符的一个文本行
5、I/O多路复用技术的优劣
①优点
- 相较基于进程的设计,给了程序员更多的对程序程序的控制
- 运行在单一进程上下文中,所以每个逻辑流都可以访问该进程的全部地址空间,共享数据容易实现
- 可以使用GDB调试
- 高效
②缺点
- 编码复杂
- 不能充分利用多核处理器
第三节 基于线程的并发编程
这种模式混合了以上两种方法:像进程流一样由内核进行调度,又像I/O多路复用流一样共享同一个虚拟地址空间
线程:就是运行在进程上下文中的逻辑流。
1、每个线程都有它自己的线程上下文:
- 一个唯一的整数线程ID——TID
- 栈
- 栈指针
- 程序计数器
- 通用目的寄存器
- 条件码
2、线程执行模型
①主线程
在每个进程开始生命周期时都是单一线程——主线程,与其他进程的区别仅有:它总是进程中第一个运行的线程。
②对等线程
某时刻主线程创建,之后两个线程并发运行。每个对等线程都能读写相同的共享数据。
3、主线程切换到对等线程的原因:
①主线程执行一个慢速系统调用,如read或sleep
② 被系统的间隔计时器中断
注意:
①切换方式:上下文切换
②对等线程执行一段时间后会控制传递回主线程
4、线程和进程的区别
- 线程的上下文切换比进程快得多
- 组织形式:
进程:严格的父子层次
线程:一个进程相关线程组成对等(线程)池,和其他进程的线程独立开来。一个线程可以杀死它的任意对等线程,或者等待他的任意对等线程终止。
5、Posix线程
Posix线程是C程序中处理线程的一个标准接口。基本用法是:
- 线程的代码和本地数据被封装在一个线程例程中
- 每个线程例程都以一个通用指针为输入,并返回一个通用指针。
这里需要提到一个万能函数的概念。
万能函数:
void func(void parameter)
typedef void (*uf)(void *para)使用思想:即输入的是指针,指向真正想要传到函数里的数据,如果只有一个就直接让指针指向这个数据,如果是很多就将它们放到一个结构体中,让指针指向这个结构体。
线程例程也是这样的。
6、创建线程
①.创建线程:pthread_create函数
#include <pthread.h>
typedef void *(func)(void *);
int pthread_create(pthread_t *tid, pthread_attr_t *attr, func *f, void *arg);
成功返回0,出错返回非0
创建一个新的线程,带着一个输入变量arg,在新线程的上下文运行线程例程f。
attr默认为NULL
参数tid中包含新创建线程的ID
7、查看线程ID——pthread_self函数
#include <pthread.h>
pthread_t pthread_self(void);
返回调用者的线程ID(TID)
8、终止线程
①终止线程的几个方式:
- 隐式终止:顶层的线程例程返回
- 显示终止:调用pthread_exit函数
*如果主线程调用,会先等待所有其他对等线程终止,再终止主线程和整个进程,返回值为pthread_return - 某个对等线程调用Unix的exit函数,会终止进程与其相关线程
- 另一个对等线程通过以当前线程ID作为参数调用pthread_cancle来终止当前线程
②pthread_exit函数
#include <pthread.h>
void pthread_exit(void *thread_return);
若成功返回0,出错为非0
③pthread_cancle函数
#include <pthread.h>
void pthread_cancle(pthread_t tid);
若成功返回0,出错为非0
9、回收已终止线程的资源:pthread_join函数
#include <pthread.h>
int pthread_join(pthread_t tid,void **thrad_return);
这个函数会阻塞,直到线程tid终止,将线程例程返回的(void*)指针赋值为thread_return指向的位置,然后回收已终止线程占用的所有存储器资源
10、分离线程
在任何一个时间点上,线程是可结合的,或是分离的。
①可结合的线程
- 能够被其他线程收回其资源和杀死
- 被收回钱,它的存储器资源没有被释放
- 每个可结合线程要么被其他线程显式的收回,要么通过调用pthread_detach函数被分离
②分离的线程
- 不能被其他线程回收或杀死
- 存储器资源在它终止时由系统自动释放
③pthread_detach函数
#include <pthread.h>
void pthread_detach(pthread_t tid);
若成功返回0,出错为非0
这个函数可以分离可结合线程tid。
线程能够通过以pthread_self()为参数的pthread_detach调用来分离他们自己。
11、初始化线程:pthread_once函数
#include <pthread.h>
pthread_once_t once_control = PTHREAD_ONCE_INIT;
int pthread_once(pthread_once_t *once_control, void (*init_routine)(void));
总是返回0
12、基于线程的并发服务器中的注意事项
①调用pthread_create时,如何将已连接描述符传递给对等进程?
传递一个指向这个描述符的指针。
②竞争问题?
见第七节。
③避免存储器泄露?
必须分离每个线程,使它终止时它的存储器资源能被收回。
第四节 多线程程序中的共享变量
一个变量是共享的,当且仅当多个线程引用这个变量的某个实例。
1、线程存储器模型
注意:寄存器从不共享,虚拟存储器总是共享的。
2、将变量映射到存储器
3、共享变量
变量v是共享的——当且仅当它的一个实例被一个以上的线程引用。
第五节 用信号量同步线程
一般而言,没有办法预测操作系统是否将为你的线程选择一个正确的顺序。
所以——进度图
1、进度图
进度图是将n个并发线程的执行模型化为一条n维笛卡尔空间中的轨迹线,原点对应于没有任何线程完成一条指令的初始状态。
当n=2时,状态比较简单,是比较熟悉的二维坐标图,横纵坐标各代表一个线程,而转换被表示为有向边
①转换规则:
- 合法的转换是向右或者向上,即某一个线程中的一条指令完成
- 两条指令不能在同一时刻完成,即不允许出现对角线
- 程序不能反向运行,即不能出现向下或向左
而一个程序的执行历史被模型化为状态空间中的一条轨迹线。
②线程循环代码的分解:
- H:在循环头部的指令块
- L:加载共享变量cnt到线程i中寄存器%eax的指令。
- U:更新(增加)%eax的指令
- S:将%eax的更新值存回到共享变量cnt的指令
- T:循环尾部的指令块
③几个概念:
- 临界区:对于线程i,操作共享变量cnt内容的指令L,U,S构成了一个关于共享变量cnt的临界区。
- 不安全区:两个临界区的交集形成的状态
- 安全轨迹线:绕开不安全区的轨迹线
2、信号量
需要注意的是,每个信号量在使用前必须初始化。
3、使用信号量来实现互斥
①基本思想
将每个共享变量(或者一组相关的共享变量)与一个信号量s(初始为1)联系起来,然后用P和V操作将相应的临界区包围起来。
②几个概念
- 二元信号量:用这种方式来保护共享变量的信号量叫做二元信号量,取值总是0或者1.
- 互斥锁:以提供互斥为目的的二元信号量
- 加锁:对一个互斥锁执行P操作
- 解锁;对一个互斥锁执行V操作
- 计数信号量:被用作一组可用资源的计数器的信号量
- 禁止区:由于信号量的不变性,没有实际可能的轨迹能够包含禁止区中的状态。
4、利用信号量来调度共享资源
①信号量的物理意义
- s.count >0表示还可执行wait(s)而不会阻塞的进程数(可用资源数)。每执行一次wait(s)操作,就意味着请求分配一个单位的资源。
- 当s.count ≤0时,表示已无资源可用,因此请求该资源的进程被阻塞。此时,s.count的绝对值等于该信号量阻塞队列中的等待进程数。执行一次signal操作,就意味着释放一个单位的资源。若s.count<0,表示s.queue队列中还有被阻塞的进程,需要唤醒该队列中的第一个进程,将它转移到就绪队列中。
②常见问题
这里的常见问题有生产者-消费者问题,和读者-写者问题。详见课本P.670
第七节 其他并发问题
1、线程安全性
一个线程是安全的,当且仅当被多个并发线程反复的调用时,它会一直产生正确的结果。
2、四个不相交的线程不安全函数类以及应对措施:
- 不保护共享变量的函数——用P和V这样的同步操作保护共享变量
- 保持跨越多个调用的状态的函数——重写,不用任何static数据。
- 返回指向静态变量的指针的函数——①重写;②使用加锁-拷贝技术。
- 调用线程不安全函数的函数——参考之前三种
3、可重入性
①显式可重入的:
所有函数参数都是传值传递,没有指针,并且所有的数据引用都是本地的自动栈变量,没有引用静态或全剧变量。
②隐式可重入的:
调用线程小心的传递指向非共享数据的指针。
4、竞争
①竞争发生的原因:
一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的x点。也就是说,程序员假定线程会按照某种特殊的轨迹穿过执行状态空间,忘了一条准则规定:线程化的程序必须对任何可行的轨
迹线都正确工作。
②消除方法:
动态的为每个整数ID分配一个独立的块,并且传递给线程例程一个指向这个块的指针
5、死锁:
一组线程被阻塞了,等待一个永远也不会为真的条件。
①条件
②解决死锁的方法
a.不让死锁发生:
- 静态策略:设计合适的资源分配算法,不让死锁发生---死锁预防;
- 动态策略:进程在申请资源时,系统审查是否会产生死锁,若会产生死锁则不分配---死锁避免。
b.让死锁发生:
进程申请资源时不进行限制,系统定期或者不定期检测是否有死锁发生,当检测到时解决死锁----死锁检测与解除。
教材学习中的问题和解决过程
问题一:为什么要用结构体来存放标量IP地址?
解决:把一个标量地址存放在结构中,是套接字早期实现的不幸产物。位IP地址定义一个标量类型应该跟更有意义,但是现在更该已经太迟了,因为已经有大量的应用是基于此的了。
问题二:临界区使用原则(互斥条件)
使用原则:
- 有空让进:如果临界区空闲,则只要有进程申请就立即让其进入;
- 无空等待:每次只允许一个进程处于临界区;
- 多中择一:当没有进程在临界区,而同时有多个进程要求进入临界区,只能让其中之一进入临界区,其他进程必须等待;
- 让权等待:进入临界区的进程,不能在临界区内长时间阻塞等待某事件,使其它进程在临界区外无限期等待;
不能限制进程的并发数量和执行进度。
问题三:信号量实现互斥的基本原理
基本原理:
两个或多个进程通过传递信号进行合作,可以迫使进程在某个位置暂时停止执行(阻塞等待),直到它收到一个可以“向前推进”的信号(被唤醒);
将实现信号灯作用的变量称为信号量,常定义为记录型变量s,其一个域为整型,另一个域为队列,其元素为等待该信号量的阻塞进程(FIFO)。
信号量定义:
type semaphore=record count: integer; queue: list of process end; var s:semaphore;
定义对信号量的两个原子操作——P和V
P(wait)
wait(s)
s.count :=s.count-1;
if s.count<0 then
begin
进程阻塞;
进程进入s.queue队列;
end;V(signal)
signal(s)
s.count :=s.count+1;
if s.count ≤0 then
begin
唤醒队首进程;
将进程从s.queue阻塞队列中移出;
end;
其它(思想、感悟)
本周内容中有很多在操作系统课程和java web编程课程中已经详细讲,但是需要注意的是,课本中讲述问题的方式与操作系统课程中有些不同,本课更多是从代码角度,两者需要相辅相成,互相促进理解,这样使得学习起来更轻松,也更全面。
本周代码托管截图
学习进度条
代码行数(新增/累积) | 博客量(新增/累积) | 学习时间(新增/累积) | 重要成长 | |
---|---|---|---|---|
目标 | 5000行 | 30篇 | 400小时 | |
第一周 | 150/150 | 1/2 | 20/20 | |
第二周 | 200/350 | 1/2 | 24/44 | |
第三周 | 150/500 | 1/3 | 20/64 | |
第五周 | 300/800 | 1/4 | 15/79 | |
第六周 | 500/1300 | 1/5 | 20/99 | |
第七周 | 200/1500 | 1/6 | 21/120 | |
第九周 | 210/1710 | 1/9 | 10/130 | |
第十周 | 530/2240 | 2/11 | 20/150 | |
第十一周 | 900/3140 | 1/12 | 30/180 | |
第十三周 | 1100/4240 | 1/17 | 30/210 |