并发编程一
并发编程
操作系统的作用
- 接口: 提供良好的接口,供用户自己使用,而调用硬件部分则直接交给操作系统
- 硬件:管理硬件资源
多道技术
- 针对单核,实现多道技术,现在计算机一般为多核,但是每个核内还是在应用多道技术
- 时间上的复用:复用一个cpu的时间片,即占用cpu时间过长或者遇到i/o
- 空间上的复用:如内存中同时有多个程序,多个进程之间要实现物理隔离
进程
概念:正在进行的一个任务;程序只是代码,而进程是指程序的运行状态,一个程序执行两次,也是两个进程
# 进程是计算机中最小的资源分配单位(进程是负责圈资源)
# 线程是计算机中能被CPU调度的最小单位 (线程是负责执行具体代码的)
# 线程 后面的爬虫阶段经常用;进程:数据分析或者是高计算的程序;协程:异步的框架 异步的爬虫模块
- 并发:即看起来时同时运行,cpu同时在多个程序之间切换,单个cpu+多道技术实行并发(并行属于并发)
- 并行:同时运行,多个程序同时占用多个cpu执行任务,只有多个cpu才能实现
-
阻塞和非阻塞:程序的运行状态;阻塞,是指调用结果返回之前,指当前线程会被挂起;非阻塞,指不能立即得到结果也会立即返回,同时该函数不会阻塞当前线程
-
阻塞 # cpu不工作 非阻塞 # cpu工作
-
同步 异步:程序的调用方式;同步就是在发出一个功能调用时,在没有得到结果之前,该调用不会返回;异步:调用对象时,调用者不能立即得到结果,只有异步完成后才能得到结果
-
同步 # 正在烧水 # 停下烧水这个动作 吹头发 # 吹完头发之后继续烧水 异步 # 正在烧水 # 吹头发 烧水也在继续
-
进程三状态
multiprocessing
# p.start():启动进程,并调用该子进程中的p.run()
# p.run():进程启动时运行的方法,正是它去调用target指定的函数,我们自定义类的类中一定要实现该方法
p.terminate():强制终止进程p,不会进行任何清理操作,如果p创建了子进程,该子进程就成了僵尸进程,使用该方法需要特别小心这种情况。如果p还保存了一个锁那么也将不会被释放,进而导致死锁
p.is_alive():如果p仍然运行,返回True
# p.join([timeout]):主线程等待p终止(强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间,需要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程
p.daemon:默认值为False,如果设为True,代表p为后台运行的守护进程,当p的父进程终止时,p也随之终止,并且设定为True后,p不能创建自己的新进程,必须在p.start()之前设置
p.name:进程的名称
# p.pid:进程的pid
p.exitcode:进程在运行时为None、如果为–N,表示被信号N结束(了解即可)
p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性,这类连接只有在具有相同的身份验证键时才能成功(了解即可)
-
multiprocessing里Process的应用 开启子进程两种方式 from multiprocessing import Process # import time # def task(n): # print('我是子进程') # time.sleep(n) # print('子进程结束') # if __name__ == '__main__': # # args=(), kwargs={} # # t=Process(task,args=(1,)) # t = Process(target=task, kwargs={'n': 1}) # t.start() # 通知操作系统,开启进程,执行task函数 # print('主') # 第二种: # from multiprocessing import Process # import time # class Task(Process): # def __init__(self, n): # super().__init__() # 一定要继承以前父类的__init__方法 # self.n = n # def run(self): # print('我是子进程') # time.sleep(self.n) # print('子进程结束') # if __name__ == '__main__': # t = Task(1) # # t.run(1) # 不是调用t.run(),而是调用t.start() # t.start() # print('主')
在进程中的典型同步和异步的例子 p.start() 开启进程 异步非阻塞 p.terminate() 结束进程 异步非阻塞 p.join() 同步阻塞
-
# join的使用 # from multiprocessing import Process # import time # def task(n): # print('我是子进程') # time.sleep(n) # print('子进程结束') # if __name__ == '__main__': # ctime = time.time() # t = Process(target=task, kwargs={'n': 1}) # t2 = Process(target=task, kwargs={'n': 2}) # t.start() # t2.start() # t.join() # 等待t子进程执行完成 # t2.join() # 等待t2子进程执行完成 # print('主') # ctime2 = time.time() # print(ctime2 - ctime) # 进程之间数据隔离 主程序 和进程之间数据隔离,可以用global全局变量来验证 # from multiprocessing import Process # import time # age = 18 # def task(n): # global age # 局部修改全局 # age = 99 # print('我是子进程') # time.sleep(n) # print('子进程结束') # print(age) # if __name__ == '__main__': # t = Process(target=task, kwargs={'n': 1}) # t.start() # t.join() # 主进程等待t子进程执行完成 明确一点,join是相对于主进程来说的 # print('主') # print(age) # 数据没有变,主进程中打印age和子进程的age没有半毛钱关系,数据是隔离的
僵尸进程和孤儿进程
-
僵尸进程:有害,一个进程使用fork (
linux
中) 创建子进程,如果子进程退出,而父进程并没有调用wait或waitpid
获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程,如果父进程是一个死循环,永远不会结束,那么该僵尸进程就会一直存在,僵尸进程过多,就是有害的 -
孤儿进程:无害, 一个父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤儿进程。孤儿进程将被
init
进程(进程号为1)所收养,并由init
进程对它们完成状态收集工作。孤儿进程是没有父进程的进程,孤儿进程这个重任就落到了init
进程身上,由init
进程进行回收
守护进程
-
创建守护进程:1. 守护进程会在主进程代码执行结束后就终止 2.守护进程内无法再开启子进程,否则抛出异常:注意:进程之间是互相独立的,主进程代码运行结束,守护进程随即终止
from multiprocessing import Process import time import random class Piao(Process): def __init__(self,name): self.name=name super().__init__() def run(self): print('%s is piaoing' %self.name) time.sleep(random.randrange(1,3)) print('%s is piao end' %self.name) p=Piao('egon') p.daemon=True #一定要在p.start()前设置,设置p为守护进程,禁止p创建子进程,并且父进程代码执行结束,p即终止运行 p.start() print('主')
进程同步(锁)
-
进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是没有问题的,
而共享带来的是竞争,竞争带来的结果就是错乱,如何控制,就是加锁处理
#由并发变成了串行,牺牲了运行效率,但避免了竞争 from multiprocessing import Process,Lock # Lock import os,time def work(lock): lock.acquire() # 上锁 print('%s is running' %os.getpid()) time.sleep(2) print('%s is done' %os.getpid()) lock.release() # 解锁 if __name__ == '__main__': lock=Lock() for i in range(3): p=Process(target=work,args=(lock,)) p.start()
模拟抢票 #文件db的内容为:{"count":1} 注意一定要用双引号,不然json无法识别 from multiprocessing import Process,Lock import time,json,random def search(): dic=json.load(open('db.txt')) print('\033[43m剩余票数%s\033[0m' %dic['count']) def get(): dic=json.load(open('db.txt')) time.sleep(0.1) #模拟读数据的网络延迟 if dic['count'] >0: dic['count']-=1 time.sleep(0.2) #模拟写数据的网络延迟 json.dump(dic,open('db.txt','w')) print('\033[43m购票成功\033[0m') def task(lock): search() lock.acquire() get() lock.release() if __name__ == '__main__': lock=Lock() for i in range(100): #模拟并发100个客户端抢票 p=Process(target=task,args=(lock,)) p.start()
-
加锁可以保证多个进程修改同一块数据时,同一时间只能有一个任务可以进行修改,即串行的修改,没错,速度是慢了,但牺牲了速度却保证了数据安全。 虽然可以用文件共享数据实现进程间通信,但问题是: 1.效率低(共享数据基于文件,而文件是硬盘上的数据) 2.需要自己加锁处理 #因此我们最好找寻一种解决方案能够兼顾:1、效率高(多个进程共享一块内存的数据)2、帮我们处理好锁问题。这就是mutiprocessing模块为我们提供的基于消息的IPC通信机制:队列和管道。 1 队列和管道都是将数据存放于内存中 2 队列又是基于(管道+锁)实现的,可以让我们从复杂的锁问题中解脱出来, 我们应该尽量避免使用共享数据,尽可能使用消息传递和队列,避免处理复杂的同步和锁问
管道
程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的
-
第三方工具(软件)提供给我们的IPC机制redis,memcache,kafka,rabbitmq
创建队列的类(底层就是以管道和锁定的方式实现):以后的分布式架构和消息队列都是基于此演变而来
# Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递。 maxsize是队列中允许最大项数,若有值,则只能放固定多个值,省略则无大小限制
# q.put方法用以插入数据到队列中,put方法还有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,该方法会阻塞timeout指定的时间,直到该队列有剩余的空间。如果超时,会抛出Queue.Full异常。如果blocked为False,但该Queue已满,会立即抛出Queue.Full异常。
# q.get方法可以从队列读取并且删除一个元素。同样,get方法有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,那么在等待时间内没有取到任何元素,会抛出Queue.Empty异常。如果blocked为False,有两种情况存在,如果Queue有一个值可用,则立即返回该值,否则,如果队列为空,则立即抛出Queue.Empty异常.
q.get_nowait():同q.get(False) # 取值不等待
q.put_nowait():同q.put(False) # 放值不等待
7 q.empty():调用此方法时q为空则返回True,该结果不可靠,比如在返回True的过程中,如果队列中又加入了项目。
8 q.full():调用此方法时q已满则返回True,该结果不可靠,比如在返回True的过程中,如果队列中的项目被取走。
9 q.qsize():返回队列中目前项目的正确数量,结果也不可靠,理由同q.empty()和q.full()一样
from multiprocessing import Queue 队列 先进先出
# 实例化得到要给对象
q=Queue(5) # 默认很大,可以放很多,写了个5,只能放5个
# 往管道中放值
q.put(1)
q.put('lqz')
q.put(18)
q.put(19)
# q.put(20)
# q.put(21)
# q.put_nowait(100)
# 从管道中取值
# print(q.get())
# print(q.get())
# print(q.get())
# print(q.get(timeout=100)) # 等0.1s还没有值,就结束
# print(q.get_nowait()) # 不等了,有就是有,没有就没有
print(q.empty()) # 看一下队列是不是空的
print(q.full()) # 看一下队列是不是满的
'''
q=Queue(队列大小)
# 放值
q.put(asdf)
q.put_nowait(asdf) # 队列满了,放不进去就不放了,报错
# 取值
q.get() # 从队列头部取出一个值
q.get_nowait() # 从队列头部取值,没有就抛错
# 队列是否为空,是否满
print(q.empty()) # 看一下队列是不是空的
print(q.full()) # 看一下队列是不是满的
其他方法(了解):
1 q.cancel_join_thread():不会在进程退出时自动连接后台线程。可以防止join_thread()方法阻塞
2 q.close():关闭队列,防止队列中加入更多数据。调用此方法,后台线程将继续写入那些已经入队列但尚未写入的数据,但将在此方法完成时马上关闭。如果q被垃圾收集,将调用此方法。关闭队列不会在队列使用者中产生任何类型的数据结束信号或异常。例如,如果某个使用者正在被阻塞在get()操作上,关闭生产者中的队列不会导致get()方法返回错误。
3 q.join_thread():连接队列的后台线程。此方法用于在调用q.close()方法之后,等待所有队列项被消耗。默认情况下,此方法由不是q的原始创
tasklist
查看进程id号 tasklist | findstr
进程id号 os.getpid()
mac ps aux|grep
进程号