第十二章 并发编程
第十二章 并发编程
1、并发:逻辑控制流在时间上重叠
2、并发程序:使用应用级并发的应用程序称为并发程序。
3、三种基本的构造并发程序的方法:
- 进程,用内核来调用和维护,有独立的虚拟地址空间,显式的进程间通信机制。
- I/O多路复用,应用程序在一个进程的上下文中显式的调度控制流。逻辑流被模型化为状态机。
- 线程,运行在一个单一进程上下文中的逻辑流。由内核进行调度,共享同一个虚拟地址空间。
12.1 基于进程的并发编程
-
构造并发服务器的自然方法就是,在父进程中接受客户端连接请求,然后创建一个新的子进程来为每个新客户端提供服务。
-
基于进程的并发echo服务器的重点内容
(1)需要一个SIGCHLD处理程序,来回收僵死子进程的资源。
(2)父子进程必须关闭各自的connfd拷贝。对父进程尤为重要,以避免存储器泄露。
(3)套接字的文件表表项中的引用计数,直到父子进程的connfd都关闭了,到客户端的连接才会终止。
-
注意:进程的模型:共享文件表,但不是共享用户地址空间。
-
优点:一个进程不可能不小心覆盖两个进程的虚拟存储器。
-
缺点:独立的地址空间使得进程共享状态信息变得更加困难。进程控制和IPC的开销很高。
-
Unix IPC是指所有允许进程和同一台主机上其他进程进行通信的技术,包括管道、先进先出(FIFO)、系统V共享存储器,以及系统V信号量。
12.2 基于I/O多路复用的并发编程
-
echo服务器必须响应两个相互独立的I/O时间:
(1)网络客户端发起连接请求(2)用户在键盘上键入命令行。 -
I/O多路复用技术的基本思路:使用select函数,要求内核挂起进程,只有在一个或多个I/O事件发生后,才将控制返回给应用程序。
-
将描述符集合看成是n位位向量:b(n-1),……b1,b0
每个位bk对应于描述符k,当期仅当bk=1,描述符k才表明是描述符集合的一个元素。
可以做以下三件事:
(1)分配它们;
(2)将一个此种类型的变量赋值给另一个变量;
(3)用FDZERO、FDSET、FDCLR和FDISSET宏指令来修改和检查它们。 -
echo函数:将来自科幻段的每一行回送回去,直到客户端关闭这个链接。
-
状态机就是一组状态、输入事件和转移。转移就是将状态和输入时间映射到状态,自循环是同一输入和输出状态之间的转移。
-
事件驱动器的设计优点:
(1)比基于进程的设计给了程序员更多的对程序行为的控制
(2)运行在单一进程上下文中,因此,每个逻辑流都能访问该进程的全部地址空间,使得流之间共享数据变得很容易。
(3)不需要进程上下文切换来调度新的流。
-
缺点:
(1)编码复杂
(2)不能充分利用多核处理器 -
粒度:每个逻辑流每个时间片执行的指令数量。并发粒度就是读一个完整的文本行所需要的指令数量。
12.3 基于线程的并发编程
-
线程:运行子进程上下文中的逻辑流。
-
线程有自己的线程上下文,包括一个唯一的整数线程ID、栈、栈指针、程序计数器、通用目的寄存器和条件码。所有运行在一个进程里的线程共享该进程的整个虚拟地址空间。
-
主线程:每个进程开始生命周期时都是单一线程。
对等线程:某一时刻,主线程创建的对等线程 -
线程与进程的不同:
(1)线程的上下文切换要比进程的上下文切换快得多;
(2)和一个进程相关的线程组成一个对等池,独立于其他线程创建的线程。
(3)主线程和其他线程的区别仅在于它总是进程中第一个运行的线程。
- 对等池的影响
(1)一个线程可以杀死它的任何对等线程;
(2)等待它的任意对等线程终止;
(3)每个对等线程都能读写相同的共享资源。
-
线程例程:线程的代码和本地数据被封装在一个线程例程中。每一个线程例程都以一个通用指针作为输入,并返回一个通用指针。
-
pthread create函数创建一个新的线程,并带着一个输入变量arg,在新线程的上下文中运行线程例程f。新线程可以通过调用pthread _self函数来获得自己的线程ID。
-
一个线程的终止方式:
(1)当顶层的线程例程返回时,线程会隐式的终止;
(2)通过调用pthread _exit函数,线程会显示地终止。如果主线程调用pthread _exit,它会等待所有其他对等线程终止,然后再终止主线程和整个进程。 -
pthread _join函数会阻塞,直到线程tid终止,回收已终止线程占用的所有存储器资源。pthread _join函数只能等待一个指定的线程终止。
-
在任何一个时间点上,线程是可结合的或者是分离的。一个可结合的线程能够被其他线程收回其资源和杀死;一个可分离的线程是不能被其他线程回收或杀死的。它的存储器资源在它终止时有系统自动释放。
-
默认情况下,线程被创建成可结合的,为了避免存储器漏洞,每个可集合的线程都应该要么被其他进程显式的回收,要么通过调用pthread _detach函数被分离。
-
pthread _once函数允许初始化与线程例程相关的状态。
-
once _control变量是一个全局或者静态变量,总是被初始化为PTHREAD _ONCE _INIT.
-
对等线程的赋值语句和主线程的accept语句之间引入了竞争。
12.4 多线程程序中的变量共享
-
每个线程和其他线程一起共享进程上下文的剩余部分。包括整个用户虚拟地址空间,是由只读文本、读/写数据、堆以及所有的共享库代码和数据区域组成的。线程也共享同样的打开文件的集合。 2、任何线程都可以访问共享虚拟存储器的任意位置。寄存器是从不共享的,而虚拟存储器总是共享的。
-
全局变量:虚拟存储器的读/写区域只会包含每个全局变量的一个实例。
-
本地自动变量:定义在函数内部但没有static属性的变量。
-
本地静态变量:定义在函数内部并有static属性的变量。
-
变量v是共享的,当且仅当它的一个实例被一个以上的线程引用。
12.5 用信号量同步线程
1、共享变量引入了同步错误的可能性。
2、线程i的循环代码分解为五部分:
Hi:在循环头部的指令块
Li:加载共享变量cnt到寄存器%eax的指令,%eax表示线程i中的寄存器%eax的值
Ui:更新(增加)%eax的指令
Si:将%eaxi的更新值存回到共享变量cnt的指令
Ti:循环尾部的指令块。
-
当有多个线程在等待同一个信号量时,你不能预测V操作要重启哪一个线程。
-
信号量不变性:一个正在运行的程序绝不能进入这样一种状态,也就是一个正确初始化了的信号量有一个负值。
-
计数信号量:一个呗用作一组可用资源的计数器的信号量
-
信号量的作用:
(1)提供互斥(2)调度对共享资源的访问 -
生产者—消费者问题:生产者产生项目并把他们插入到一个有限的缓冲区中,消费者从缓冲区中取出这些项目,然后消费它们。
-
读者—写者问题:
(1)读者优先,要求不让读者等待,除非已经把使用对象的权限赋予了一个写者。
(2)写者优先,要求一旦一个写者准备好可以写,它就会尽可能地完成它的写操作。
(3)饥饿就是一个线程无限期地阻塞,无法进展。
12.6 使用线程提高并行性
写顺序程序只有一条逻辑流,写并发程序有多条并发流,并行程序是一个运行在多个处理器上的并发程序。并行程序的集合是并发程序集合的真子集。
12.7 其他并发问题
1、线程安全:当且仅当被多个并发线程反复地调用时,它会一直产生正确的结果。
线程不安全:如果一个函数不是线程安全的,就是线程不安全的。
2、线程不安全的类:
(1)不保护共享变量的函数
(2)保持跨越多个调用的状态的函数。
(3)返回指向静态变量的指针的函数。解决办法:重写函数和加锁拷贝。
(4)调用线程不安全函数的函数。
- 竞争:当一个程序的正确性依赖于一个线程要在另一个线程到达y点之前到达它的控制流中的x点时,就会发生竞争。
- 线程化的程序必须对任何可行的轨迹线都正确工作。
12.7.5 死锁
1、死锁:一组线程被阻塞了,等待一个永远也不会为真的条件。
2、程序员使用P和V操作不当,以至于两个信号量的禁止区域重叠。
3、重叠的禁止区域引起了一组称为死锁区域的状态。
4、死锁是不可预测的。