windows下多进程加协程并发模式
好久没更新博客了。正好最近要整理一下最近这段时间做过的项目以及学习python的一些心得。如标题所示,今天就来说说windows下多进程加协程并发模式。其实网上还是蛮多在linux下的多进程加协程并发模式,本身linux对python的支持更好吧。但是由于本人的开发环境是windows的,而且网上关于这方面的资料还是少了一点,不过经过一番折腾,也算是弄出来了。废话不多说,先贴代码吧:
# coding=utf-8 # windows下多进程加协程并发模式 # 打入gevent的monkey补丁 from gevent import monkey monkey.patch_all() # 导入协程池 from gevent.pool import Pool import urllib2 # 导入多进程模块 import multiprocessing import time # 定义一个爬取微博网页的方法 def html(url=u'http://weibo.com/'): # 用上多进程的锁机制,用于防止连续打印 lock = multiprocessing.Lock() try: h = urllib2.urlopen(url).read() except: lock.acquire() print u'连接错误' lock.release() else: lock.acquire() print u'done' lock.release() # 定义一个协程并发方法(用的是gevent的协程池) def a(num): pool = Pool(100) # 协程池的map方法可以让你自定义并发次数,这里可以自定义爬取微博网页的并发次数,第一个参数是要执行的函数 # 第二个参数可以理解成需要并发参数的次数 pool.map(html, [u'http://weibo.com/' for i in xrange(num)]) pool.kill() pool.join() # 这个是比较关键的一个方法,就是协程加多进程的并发模式 def b(num): t = [] # 建立10个进程来并行协程即方法a for i in xrange(10): p = multiprocessing.Process(target=a, args=(num,)) p.start() t.append(p) for each in t: each.join() # 对比多进程加协程与纯粹协程的各自的并发状态 if __name__ == '__main__': print u'方法b开始计时:' start = time.time() b(10) print u'方法b总共花费%f秒' % (time.time() - start) print u'方法a开始计时:' start = time.time() a(100) print u'方法a总共花费%f秒' % (time.time() - start)
上面的代码注释的挺清楚的了,下面贴一下执行的结果吧:
从上面的结果可以看到,执行协程加多进程的方法b时,多核cpu是可以被充分利用的,这是单纯使用协程方式无法做到的,这也是多进程的一大好处吧。由于我这里实验的是100次并发,所以其实就效果来说还不是很明显,但是当你要瞬时并发一千个或者一万个的时候,差距就可以显现出来了,显然,协程加多进程的方式是更加牛叉的,这种模式充分把两者的优点结合起来了。
这里如果读者对python的协程模块与多进程模块不熟悉的话,还是自行百度一下吧。毕竟自己真正理解了才是自己的东西啊。其实我也还是个python菜鸟,如果上面的代码有啥问题或者更好的建议的话,还希望大神们不吝赐教呀!