Python之多进程
1. 进程原理
1.1 程序和进程
- 程序:只是一堆代码
- 进程:正在运行中的任务,负责执行任务的是CPU
- 程序只是一堆代码,而进程是程序运行的实例
- 同一个程序执行两次,那也是两个进程
1.2 并发与并行
- 无论是并行还是并发,在用户的角度看来都是“同时”运行的
- 多道技术:内存中同时存入多道(多个)程序,cpu从一个进程快速切换到另外一个,使每个进程各自运行几十或几百毫秒,这样在某一瞬间,一个cpu只能执行一个任务,但在1秒内,cpu可以运行多个进程,这样就给人产生了并行的错觉(伪并发),以此来区分多处理区操作系统的真正硬件并行(多个cpu共享同一个物理内存)
1)并发
- 并发是伪并行,看起来是同时运行的
- 单个CPU + 多道技术就可以实现并发(并行也属于并发)
2)并行
- 同时运行,只有具备多个CPU才能实现并行
- 单核下,可以利用多道技术,多个核,每个核也都可以利用多道技术(多道技术是针对单核而言的)
- 假设有4个核,6个任务,这样同一时间就有4个任务被执行,假设分别分配给了cpu1,cpu2,cpu3,cpu4,一旦任务1遇到 I/O 就被迫中断执行,此时任务5就拿到cpu1的时间片去执行,这就是单核下的多道技术;而一旦任务1的I/O结束了,操作系统就会重新调度它,可能被分配给4个cpu中的任意一个去执行
1.3 同步&异步
- 同步于异步针对的是函数/任务的调用方式
- 同步就是当一个进程发起一个函数(任务)调用的时候,一直等到函数(任务)完成,而进程继续处于激活状态
- 异步情况下是当一个进程发起一个函数(任务)调用的时候,不会等到函数返回,而是继续往下执行,函数返回的时候通过状态、通知、事件等方式通知进程任务完成
1)同步
- 同步就是在发出一个功能调用时,在没有得到结果之前,该调用就不会返回
2)异步
- 异步和同步相对,当一个异步功能调用发出后,调用者不能立刻得到结果
- 当该异步功能完成后,通过状态、通知或者回调来通知调用者
- 如果异步功能用状态来通知,那么调用者就需要每隔一定时间检查一次,效率就很低
1.4 阻塞&非阻塞
- 阻塞和非阻塞针对的是进程或者线程
- 阻塞是当请求不能满足的时候就将进程挂起
- 非阻塞则不会阻塞当前进程
1)阻塞
- 阻塞调用是指调用结果返回之前,当前线程会被挂起(如遇到io操作)
- 函数只有与在得到结果之后才会将阻塞的线程激活
2)非阻塞
- 非阻塞和阻塞概念相对应,指在不能立刻得到结果之前也会立刻返回,同时该函数不会阻塞当前线程
1.5 进程的创建&终止
1)进程的创建
- 新进程的创建都是由一个已经存在的进程执行了一个用于创建进程的系统调用而创建的 在UNIX中该系统调用是:fork,fork会创建一个与父进程一模一样的副本,二者有相同的存储映像、同样的环境字符串和同样的打开文件(在shell解释器进程中,执行一个命令就会创建一个子进程)
- 进程创建后,父进程和子进程有各自不同的地址空间(多道技术要求物理层面实现进程之间内存的隔离)
- 任何一个进程在其地址空间中的修改都不会影响到另外一个进程
- UNIX中,子进程的初始地址空间是父进程的一个副本,子进程和父进程是可以有只读的共享内存区的
- 在windows中该系统调用是:CreateProcess,CreateProcess既处理进程的创建,也负责把正确的程序装入新进程
- 对于windows系统来说,从一开始父进程与子进程的地址空间就是不相同的
2)进程的终止
- 正常退出(自愿,如用户点击交互式页面的叉号,或程序执行完毕调用发起系统调用正常退出,在linux中用exit,在windows中用ExitProcess)
- 出错退出(自愿,python a.py中a.py不存在)
- 严重错误(非自愿,执行非法指令,如引用不存在的内存,1/0等,可以捕捉异常,try...except...)
- 被其他进程杀死(非自愿,如kill -9)
1.6 进程的结构&状态
1)进程的结构
无论UNIX还是Windows,进程只有一个父进程。
- 在UNIX中所有的进程,都是以init进程为根,组成树形结构
- 父子进程共同组成一个进程组,这样,当从键盘发出一个信号时,该信号被送给当前与键盘相关的进程组中的所有成员
- 在windows中,没有进程层次的概念,所有的进程都是地位相同的
- 唯一类似于进程层次的暗示,是在创建进程时,父进程得到一个特别的令牌(称为句柄),该句柄可以用来控制子进程,但是父进程有权把该句柄传给其他子进程,这样就没有层次了
2)进程的状态
1.7 进程并发的实现
进程并发是实现在于,硬件中断一个正在运行的进程,把此时进程运行的所有状态保存下来。
操作系统维护有一张表格,即进程表(process table),每一个进程占用一个进程表项(这些表项也称为进程控制块)。
该表存放了进程状态的重要信息:进程计数器、堆栈指针、内存分配状况、所有打开文件的状态、账号和调度信息,以及其他在进程由运行态转换为就绪态或阻塞态时,必须要保存的信息,从而保证该进程再次启动时,就像从未被终端过一样。
2. Process类详解
2.1 multiprocessing模块
python中的多线程无法利用多核优势,如果想要充分的使用多核CPU的资源,在python中大部分情况下需要使用多进程。
multiprocessing模块用来开启子进程,并在子进程中执行我们定制的任务(如函数)。
与线程不同,进程没有任何共享状态,进程修改的数据,改动仅限于该进程内。