python 之进程篇

多线程给我们的感觉

　　1.因为GIL的存在，一个进程的多线程同一时刻只能进去一个,感觉是假的并发

　　2.只适合I/O密集型的任务

　　3.针对计算密集型，就挂了（变成串行了）

在python中想要充分利用多核cpu的优势，就可用多进程这个技术---multiprocessing

multiprocessing是多进程的一个管理包。包含 Process、Queue、Pipe、Lock等组件。与thread类似

　　该Process对象与Thread对象的用法相同，也有start(), run(), join()的方法。此外multiprocessing包中也有Lock/Event/Semaphore/Condition类 (这些对象可以像多线程那样，通过参数传递给各个进程)，用以同步进程，其用法与threading包中的同名类一致。所以，multiprocessing的很大一部份与threading使用同一套API，只不过换到了多进程的情境。

但在使用这些共享API的时候，我们要注意以下几点:

在UNIX平台上，当某个进程终结之后，该进程需要被其父进程调用wait，否则进程成为僵尸进程(Zombie)。所以，有必要对每个Process对象调用join()方法 (实际上等同于wait)。对于多线程来说，由于只有一个进程，所以不存在此必要性。
multiprocessing提供了threading包中没有的IPC(比如Pipe和Queue)，效率上更高。应优先考虑Pipe和Queue，避免使用Lock/Event/Semaphore/Condition等同步方式 (因为它们占据的不是用户进程的资源)。
多进程应该避免共享资源。在多线程中，我们可以比较容易地共享资源，比如使用全局变量或者传递参数。在多进程情况下，由于每个进程有自己独立的内存空间，以上方法并不合适。此时我们可以通过共享内存和Manager的方法来共享资源。但这样做提高了程序的复杂度，并因为同步的需要而降低了程序的效率。

简单的例子：

from multiprocessing import Process
import os
def info(name):
    print(name)
    print(os.getppid())#在主进程运行的是的是这个是pychar的pid
    print(os.getpid())

if __name__ == "__main__":
    info("main")
    p=Process(target=info,args=("bob",))
    p.start()
    p.join()

View Code

进程之间通讯

1. Queue（）注意这个不同于进程queue。每个进程之间使用pickle序列化实现

2. Pipe（）

queue代码：注意q要当参数传递给函数，不然无法使用。因为进程之间数据默认不共享的。

from multiprocessing import Process, Queue

def f(q,n):
    q.put([42, n, 'hello'])

if __name__ == '__main__':
    q = Queue()
    p_list=[]
    for i in range(3):
        p = Process(target=f, args=(q,i))
        p_list.append(p)
        p.start()
    print(q.get())
    print(q.get())
    print(q.get())
    for i in p_list:
            i.join()

View Code

Pipe代码

from multiprocessing import Process, Pipe
 
def f(conn):
    conn.send([42, None, 'hello'])
    conn.close()
 
if __name__ == '__main__':
    parent_conn, child_conn = Pipe()
    p = Process(target=f, args=(child_conn,))
    p.start()
    print(parent_conn.recv())   # prints "[42, None, 'hello']"
    p.join()

View Code

进程之间数据共享：Manager组件

from multiprocessing import Process, Manager

def f(d, l,n):
    d[n] = '1'
    d['2'] = 2
    d[0.25] = None
    l.append(n)
    print(l)

if __name__ == '__main__':
    with Manager() as manager:
        d = manager.dict()

        l = manager.list(range(5))
        p_list = []
        for i in range(10):
            p = Process(target=f, args=(d, l,i))
            p.start()
            p_list.append(p)
        for res in p_list:
            res.join()

        print(d)
        print(l)

View Code

这里存在一个问题：数据共享是不是要加锁

进程之间的数据同步LOCK：

用法与线程的一样:主要是为了防止进程抢占屏幕输出，避免输出错乱

from multiprocessing import Process, Lock

def f(l, i):
    l.acquire()
    try:
        print('hello world', i)
    finally:
        l.release()

if __name__ == '__main__':
    lock = Lock()

    for num in range(10):
        Process(target=f, args=(lock, num)).start()

View Code

进程池：

两种方法：

pool.apply

pool.apply_async

from multiprocessing import Pool
import os,time
def Foo(i):
    time.sleep(2)
    print("子进程",i,os.getpid())
def Bar(arg):
    print("Exec done",arg,os.getpid())
if __name__=="__main__":
    pool = Pool(3) #已经启动了10个进程，但是同一时刻只能有3个进程执行
    for i in range(10):
        #pool.apply(func=Foo,args=(i,)) #串行效果
        #pool.apply_async(func=Foo,args=(i,))#异步方法，为了显示效果，必须加上，join。
        pool.apply_async(func=Foo, args=(i,),callback=Bar) #异步使用回调函数，但是这个回调是在主进程中执行的，列如：在数据库连接的时候，如果在子进程连接，每个都要打开新的，不好
    pool.close()
    pool.join()#join之前，必须加上close，注意：close在前。

View Code

posted @ 2017-12-03 19:52 娄先生阅读(148) 评论(0) 收藏举报

刷新页面返回顶部

娄先生

奋斗的路上，一直很遥远！

python 之进程篇

进程之间通讯

1. Queue（）注意这个不同于进程queue。每个进程之间使用pickle序列化实现

2. Pipe（）

进程之间数据共享：Manager组件

进程之间的数据同步LOCK：

进程池：

公告

娄先生

奋斗的路上，一直很遥远！

python 之进程篇

进程之间通讯

1. Queue（） 注意这个不同于进程queue。 每个进程之间使用pickle序列化实现

2. Pipe（）

进程之间数据共享：Manager组件

进程之间的数据同步LOCK：

进程池：

公告

1. Queue（）注意这个不同于进程queue。每个进程之间使用pickle序列化实现