Python攻克之路-yield和gevent实现协程

1.yield支持下的协程
注:线程和进程都是一种竞争,抢占的资源
协程,又称微线程,纤程。英文名Coroutine.一句话说明什么是协程:协程是一种用户态的轻量线程(单线程)
协程拥有自己的寄存器上下文和栈。协程调度切换时,将寄存器上下文和栈保存其他地方,在切回来时,恢复先前保存的寄存器上下文和栈。因此协程保留上一次调用时的状态(即所有局部的一个特定组合),每次过程重入时,就相当于入上一次调用的状态,换种说法:进入上一次离开时所处逻辑流的位置。

 

2.协程优缺点
协程的好处
- 无需线程上下文切换的开始
描述:CPU运行多个任务时,第一个任务先抢到CPU,如果有一个I/O阻塞可以切换到另一个任务上去,这个过程有一个切换,如果两个任务都没有sleep或阻塞,这时也会切换,按照分配的运行时间去切换,两个任务是计算密集型的是不存在I/O阻塞的,就会存在大量的切换,导致效率非常低,在协程中只有一个线程,不存在CPU的切换
- 无需原子操作锁定及同步的开始
描述:在多线程中,因为是抢占式的资源,有可能会共同操作数据而导致不安全,所以在这种机制下要加上锁,在协程是单个线程通过用户自行调控什么时候切换,所以避免了数据不安全的情况
- 方便切换控制流,简化编程的模型
- 高并发+高扩展+低成本:一个CPU支持上万的协程都不是问题。所以很适合用于高并发处理
描述:线程并发如开100个线程,就可以实现100个任务的并发,不能无限的开,即使是I/O密集型的要开1万个也无法实现,消耗太大,协程只有一个线程,不存在开销,所以并发理论是无限,如实现并发的Nginx服务,在京东买东西是有一个专门接受用户请求的web服务器,接收大并发的,多用户一起进来要能够处理,nginx内部使用协程来实现,因为协程可以实现的并发效果非常好的,一个线程就通过协程来实现,一个就可能接收上成万个并发,以此类推多起几个.

缺点
- 无法利用多核资源:协程的本质是个单线程,它不能同时将单个CPU的多个核心用上,协程需要和进程配合才能运行在多CPU上,当然一般日常编写的绝大部分应用都没有这个必要,除非是CPU密集型应用
分析:可以使用多进程+协程来实现多核的利用,一个线程可以支持协程,如实现1000个并发,不能使用多核,但是进程可以使用多核,可以在进程里起一个线程,并支持协程,可以再开一个进程,起一个线程又可以实现1000个并发
- 进行阻塞(Blocking)操作(如I/O时)会阻塞掉整个程序
分析:进程中的线程阻塞会导致整个程序都会停下来

 

3.yield支持下的协程
分析:支持并发,yield是底层的
执行顺序:p=producer() --> 函数producer --> 函数consumer到yield

[root@node2 threading]# cat exam-yield.py
#!/usr/local/python3/bin/python3
import time
import queue
def consumer(name):
    print("---starting---")
    while True:
        new_baozi = yield            #是一个生成器
        print("[%s] is eating baozi %s " %(name,new_baozi))
        #time.sleep(1)

def producer():       #只是调用
    next(con)  #r = con.__next__()   ##从consumer开始执行,到 new_baozi = yield返回,代码执行完,r是yield返回的值
    next(con3) #r = con2.__next__()  ##从consumer开始执行,到 new_baozi = yield返回,代码执行完,r是yield返回的值
    n = 0
    while n < 5:
        n +=1
        con.send(n)   
        #n+1后,就把n发送过去,给生成器对象发送,n第一次是1,发送后是从consumer中new_baozi=yield开始执行,把1给new_baizi,
        然后开始print说客户要开始吃包子,然后又折回到new_baizi=yield,遇到yield才退出,con.send才真正结束
        con2.send(n)  #n是1
        print("\033[32;1m[producer]\033[0m is making baozi %s" %n)

if __name__=='__main__':
    con = consumer("c1")   #调用函数,代码就执行,如果是生成器,不执行,只是生成一个生成器对象
    con2 = consumer("c2")  #生成器
    p = producer()         #执行producer函数,p是函数的返回值
    
[root@node2 threading]# python3 exam-yield.py
---starting---
---starting---
[c1] is eating baozi 1 
[c2] is eating baozi 1 
[producer] is making baozi 1
[c1] is eating baozi 2 
[c2] is eating baozi 2 
[producer] is making baozi 2
[c1] is eating baozi 3 
[c2] is eating baozi 3 
[producer] is making baozi 3
[c1] is eating baozi 4 
[c2] is eating baozi 4 
[producer] is making baozi 4
[c1] is eating baozi 5 
[c2] is eating baozi 5 
[producer] is making baozi 5

知识回顾:生成器

[root@node2 threading]# cat test2.py
#!/usr/local/python3/bin/python3
def f():
    print('ok1')
    yield
print(f())
[root@node2 threading]# python3 test2.py
<generator object f at 0x7fa31a2a4eb8>  #f()创建生成器对象,有了这个对象可以进入到f函数中

返回

[root@node2 threading]# cat test2.py
#!/usr/local/python3/bin/python3
def f():
    print('ok1')
    yield
gen =f()
next(gen)  #相当于next进入函数后,执行print,到yield时就返回给调用方(next)
[root@node2 threading]# python3 test2.py
ok1

[root@node2 threading]# cat test2.py
#!/usr/local/python3/bin/python3
def f():
    print('ok1')
    yield 5
    print('ok2')
    yield
gen =f()
ret=next(gen)
print(ret)
[root@node2 threading]# python3 test2.py
ok1
5

与yield交互

[root@node2 threading]# cat test2.py
#!/usr/local/python3/bin/python3
def f():
    print('ok1')
    count=yield 5
    print(count)
    print('ok2')
    yield
gen =f()
ret=next(gen)
print(ret)
gen.send(10)   ##send给count
[root@node2 threading]# python3 test2.py
ok1
5
10
ok2

  

4.gevent下的协程
linux安装gevent库

[root@node2 ~]# pip3 install gevent --trusted-host pypi.douban.com
windows使用pycharm安装gevent
file --> setting  --> Project interpreter  --> 右边添加"+"

分析:两个函数分别打印12,34,另一个打印56,78,有两个任务,以上的例子是使用yield是可以保持住上下文,知道从那里开始继续执行,先创建两个greenlet的对象,gevent中的switch实现不同任务之间切换

[root@node2 threading]# cat gev.py
#!/usr/local/python3/bin/python3
from greenlet import greenlet
def test1():
    print (12)
    gr2.switch()    #切换到gr2执行
    print (34)
    gr2.switch()

def test2():
    print (56)
    gr1.switch()   #切换到gr1执行
    print (78)

gr1 = greenlet(test1)   #先创建一个对象,
gr2 = greenlet(test2)
gr1.switch()            #gr1对角调用switch
gr2.switch()
[root@node2 threading]# python3 gev.py  #执行顺序,由于切换变了
12
56
34
78

Gevent是一个第三方库,可以轻松通过gevent实现并发同步或异步编程,在gevent中用到主要模式是Greenlet,它是以C扩展模块形式接入Python的轻量级协程,Greenlet全部运行在主程序操作系统进程的内部,但是它们被称为协作
分析:通过gevent下的joinall进行连接,要完成协程的动作,主要目的是遇到I/O阻塞时切换给其他线程使用,从而节省时间

[root@node2 threading]# cat geve.py
#!/usr/local/python3/bin/python3
import gevent
def foo():
    print('Running in foo',time.ctime())
    gevent.sleep(1)            ##模拟I/O阻塞
    print('Explicit context switch to foo again',time.ctime())

def bar():
    print('Explicit context to bar',time.ctime())
    gevent.sleep(2)
    print('Implicit context switch back to bar',time.ctime())

gevent.joinall([
    gevent.spawn(foo),  
    gevent.spawn(bar),
    ])
[root@node2 threading]# python3 geve.py
Running in foo Wed Jun 13 08:17:27 2018
Explicit context to bar Wed Jun 13 08:17:27 2018   #前两个是一个并发
Explicit context switch to foo again Wed Jun 13 08:17:28 2018
Implicit context switch back to bar Wed Jun 13 08:17:29 2018

抓虫v1

[root@node2 threading]# cat pa-v1.py 
#!/usr/local/python3/bin/python3
from gevent import monkey;monkey.patch_all()
import gevent
from urllib.request import urlopen   #抓虫所需要的模块

def f(url):
    print('GET: %s' % url) 
    resp = urlopen(url)      #打开一url
    data = resp.read()       #把url中的数据都读出
    
    with open('reid.html','wb') as f:  #本地创建文件来保存
        f.write(data)
    print('%d bytes received from %s.' % (len(data),url))

f('http://www.yggk.net/xiaohua/')
[root@node2 threading]# python3 pa-v1.py
GET: http://www.yggk.net/xiaohua/
24813 bytes received from http://www.yggk.net/xiaohua/.

抓虫v2
描述:v1中有I/O阻塞,可以优化,使用for循环抓多个

[root@node2 threading]# cat pa-v2.py
#!/usr/local/python3/bin/python3
from gevent import monkey;monkey.patch_all()  #monkey.pathc_all()可以最大程序上的监听I/O阻塞
import gevent
from urllib.request import urlopen
import time

def f(url):
    print('GET: %s' % url)
    resp = urlopen(url)
    data = resp.read()

    print('%d bytes received from %s.' % (len(data),url))

l = ['https://www.cnblogs.com/','http://www.sina.com/','http://www.sohu.com/']
start=time.time()
for url in l:
    f(url)
print(time.time()-start)
[root@node2 threading]# python3 pa-v2.py
GET: https://www.cnblogs.com/
45436 bytes received from https://www.cnblogs.com/.
GET: http://www.sina.com/
589950 bytes received from http://www.sina.com/.
GET: http://www.sohu.com/
217682 bytes received from http://www.sohu.com/.
1.1290698051452637

抓虫v3
描述:使用协程

[root@node2 threading]# cat pa-v3.py
#!/usr/local/python3/bin/python3
from gevent import monkey;monkey.patch_all()
import gevent
from urllib.request import urlopen
import time

def f(url):
    print('GET: %s' % url)
    resp = urlopen(url)
    data = resp.read()

    print('%d bytes received from %s.' % (len(data),url))

start=time.time()
gevent.joinall([
    gevent.spawn(f,'https://www.cnblogs.com/'),    
    gevent.spawn(f,'http://www.sina.com/'),    
    gevent.spawn(f,'http://www.sohu.com/'),    
    ])
print(time.time()-start)
[root@node2 threading]# python3 pa-v3.py
GET: https://www.cnblogs.com/
GET: http://www.sina.com/
GET: http://www.sohu.com/
217682 bytes received from http://www.sohu.com/.
589950 bytes received from http://www.sina.com/.
45436 bytes received from https://www.cnblogs.com/.
0.45133137702941895

  

 

posted @ 2018-07-05 09:03  Reid21  阅读(848)  评论(0编辑  收藏  举报