多任务—协程
一、协程简介
协程
协程,又称微线程,纤程。英文名Coroutine。
协程是python个中另外一种实现多任务的方式,只不过比线程更小占用更小执行单元(理解为需要的资源)。 为啥说它是一个执行单元,因为它自带CPU上下文。这样只要在合适的时机, 我们可以把一个协程 切换到另一个协程。 只要这个过程中保存或恢复 CPU上下文那么程序还是可以运行的。
通俗的理解:在一个线程中的某个函数,可以在任何地方保存当前函数的一些临时变量等信息,然后切换到另外一个函数中执行,注意不是通过调用函数的方式做到的,并且切换的次数以及什么时候再切换到原来的函数都由开发者自己确定
协程和线程差异
在实现多任务时, 线程切换从系统层面远不止保存和恢复 CPU上下文这么简单。 操作系统为了程序运行的高效性每个线程都有自己缓存Cache等等数据,操作系统还会帮你做这些数据的恢复操作。 所以线程的切换非常耗性能。但是协程的切换只是单纯的操作CPU的上下文,所以一秒钟切换个上百万次系统都抗的住。
# 进程 启动多个进程 进程之间是由操作系统负责调用
# 线程 启动多个线程 真正被CPU执行的最小单位实际是线程
# 协程
# 本质上是一个线程
# 能够在多个任务之间切换来节省一些IO时间
# 协程中任务之间的切换也消耗时间,但是开销要远远小于进程线程之间的切换
简单实现协程
import time def work1(): while True: print("work1") yield time.sleep(0.5) def work2(): while True: print("work2") yield time.sleep(0.5) if __name__ == "__main__": w1 = work1() w2 = work2() while True: next(w1) next(w2)
二、greenlet
为了更好使用协程来完成多任务,python中的greenlet模块对其封装,从而使得切换任务变的更加简单
from greenlet import greenlet import time def test1(): while True: print("test1") # 切换gt2运行 gt2.switch() time.sleep(1) def test2(): while True: print("test2") # 切换gt1运行 gt1.switch() time.sleep(1) gt1 = greenlet(test1) gt2 = greenlet(test2) # 切换gt1运行 gt1.switch()
三、gevent
greenlet已经实现了协程,但是这个还得人工切换,是不是觉得太麻烦了,不要捉急,python还有一个比greenlet更强大的并且能够自动切换任务的模块gevent
其原理是当一个greenlet遇到IO(指的是input output 输入输出,比如网络、文件操作等)操作时,比如访问网络,就自动切换到其他的greenlet,等到IO操作完成,再在适当的时候切换回来继续执行。
由于IO操作非常耗时,经常使程序处于等待状态,有了gevent为我们自动切换协程,就保证总有greenlet在运行,而不是等待IO
1. gevent的使用
import gevent def test(n): for i in range(n): print(gevent.getcurrent(), i) g1 = gevent.spawn(test, 5) g2 = gevent.spawn(test, 5) g3 = gevent.spawn(test, 5) g1.join() g2.join() g3.join() # 执行结果: <Greenlet at 0x7f688ad95748: test(5)> 0 <Greenlet at 0x7f688ad95748: test(5)> 1 <Greenlet at 0x7f688ad95748: test(5)> 2 <Greenlet at 0x7f688ad95748: test(5)> 3 <Greenlet at 0x7f688ad95748: test(5)> 4 <Greenlet at 0x7f688ad95948: test(5)> 0 <Greenlet at 0x7f688ad95948: test(5)> 1 <Greenlet at 0x7f688ad95948: test(5)> 2 <Greenlet at 0x7f688ad95948: test(5)> 3 <Greenlet at 0x7f688ad95948: test(5)> 4 <Greenlet at 0x7f688ad95a48: test(5)> 0 <Greenlet at 0x7f688ad95a48: test(5)> 1 <Greenlet at 0x7f688ad95a48: test(5)> 2 <Greenlet at 0x7f688ad95a48: test(5)> 3 <Greenlet at 0x7f688ad95a48: test(5)> 4 可以看到,3个greenlet是依次运行而不是交替运行
2. gevent切换执行
import gevent def test(n): for i in range(n): print(gevent.getcurrent(), i) gevent.sleep(1) # 用来模拟一个耗时操作,注意不是time模块中的sleep g1 = gevent.spawn(test, 5) g2 = gevent.spawn(test, 5) g3 = gevent.spawn(test, 5) g1.join() g2.join() g3.join() # 执行结果: <Greenlet at 0x7fe357a77748: test(5)> 0 <Greenlet at 0x7fe357a77948: test(5)> 0 <Greenlet at 0x7fe357a77a48: test(5)> 0 <Greenlet at 0x7fe357a77748: test(5)> 1 <Greenlet at 0x7fe357a77948: test(5)> 1 <Greenlet at 0x7fe357a77a48: test(5)> 1 <Greenlet at 0x7fe357a77748: test(5)> 2 <Greenlet at 0x7fe357a77948: test(5)> 2 <Greenlet at 0x7fe357a77a48: test(5)> 2 <Greenlet at 0x7fe357a77748: test(5)> 3 <Greenlet at 0x7fe357a77948: test(5)> 3 <Greenlet at 0x7fe357a77a48: test(5)> 3 <Greenlet at 0x7fe357a77748: test(5)> 4 <Greenlet at 0x7fe357a77948: test(5)> 4 <Greenlet at 0x7fe357a77a48: test(5)> 4
3. 给程序打补丁
import gevent from gevent import monkey import random import time # 有耗时操作时需要 monkey.patch_all() # 将程序中用到的耗时操作的代码,换为gevent中自己实现的模块 def test(name): for i in range(10): print(name, i) time.sleep(random.random()) gevent.joinall([ gevent.spawn(test, "test1"), gevent.spawn(test, "test2") ]) # 执行结果: test1 0 test2 0 test2 1 test1 1 test1 2 test1 3 test2 2 test1 4 test1 5 test2 3 test1 6 test1 7 test2 4 test2 5 test1 8 test2 6 test2 7 test1 9 test2 8 test2 9
四、进程、线程、协程对比
通俗描述
-
有一个老板想要开个工厂进行生产某件商品(例如剪子)
-
他需要花一些财力物力制作一条生产线,这个生产线上有很多的器件以及材料这些所有的 为了能够生产剪子而准备的资源称之为:进程
-
只有生产线是不能够进行生产的,所以老板的找个工人来进行生产,这个工人能够利用这些材料最终一步步的将剪子做出来,这个来做事情的工人称之为:线程
-
这个老板为了提高生产率,想到3种办法:
-
在这条生产线上多招些工人,一起来做剪子,这样效率是成倍増长,即单进程 多线程方式
-
老板发现这条生产线上的工人不是越多越好,因为一条生产线的资源以及材料毕竟有限,所以老板又花了些财力物力购置了另外一条生产线,然后再招些工人这样效率又再一步提高了,即多进程 多线程方式
-
老板发现,现在已经有了很多条生产线,并且每条生产线上已经有很多工人了(即程序是多进程的,每个进程中又有多个线程),为了再次提高效率,老板想了个损招,规定:如果某个员工在上班时临时没事或者再等待某些条件(比如等待另一个工人生产完谋道工序 之后他才能再次工作) ,那么这个员工就利用这个时间去做其它的事情,那么也就是说:如果一个线程等待某些条件,可以充分利用这个时间去做其它事情,其实这就是:协程方式
-
简单总结
-
进程是资源分配的单位
-
线程是操作系统调度的单位
-
进程切换需要的资源很最大,效率很低
-
线程切换需要的资源一般,效率一般(当然了在不考虑GIL的情况下)
-
协程切换任务资源很小,效率高
-
多进程、多线程根据cpu核数不一样可能是并行的,但是协程是在一个线程中 所以是并发
五、图片下载器
from gevent import monkey import gevent import urllib.request monkey.patch_all() def down_img(img_name, img_url): req = urllib.request.urlopen(img_url) content = req.read() with open(img_name, 'wb') as f: f.write(content) if __name__ == "__main__": gevent.joinall([ gevent.spawn(down_img, "1.jpg", "网址"), gevent.spawn(down_img, "2.jpg", "网址"), ])