Python标准库10 多进程初步 (multiprocessing包)(转载)

Python标准库10 多进程初步 (multiprocessing包)

 

作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!

 

我们已经见过了使用subprocess包来创建子进程,但这个包有两个很大的局限性:1) 我们总是让subprocess运行外部的程序,而不是运行一个Python脚本内部编写的函数。2) 进程间只通过管道进行文本交流。以上限制了我们将subprocess包应用到更广泛的多进程任务。(这样的比较实际是不公平的,因为subprocessing本身就是设计成为一个shell,而不是一个多进程管理包)

 

threading和multiprocessing

(请尽量先阅读Python多线程与同步)

multiprocessing包是Python中的多进程管理包。与threading.Thread类似,它可以利用multiprocessing.Process对象来创建一个进程。该进程可以运行在Python程序内部编写的函数。该Process对象与Thread对象的用法相同,也有start(), run(), join()的方法。此外multiprocessing包中也有Lock/Event/Semaphore/Condition类 (这些对象可以像多线程那样,通过参数传递给各个进程),用以同步进程,其用法与threading包中的同名类一致。所以,multiprocessing的很大一部份与threading使用同一套API,只不过换到了多进程的情境。

但在使用这些共享API的时候,我们要注意以下几点:

  • 在UNIX平台上,当某个进程终结之后,该进程需要被其父进程调用wait,否则进程成为僵尸进程(Zombie)。所以,有必要对每个Process对象调用join()方法 (实际上等同于wait)。对于多线程来说,由于只有一个进程,所以不存在此必要性。
  • multiprocessing提供了threading包中没有的IPC(比如Pipe和Queue),效率上更高。应优先考虑Pipe和Queue,避免使用Lock/Event/Semaphore/Condition等同步方式 (因为它们占据的不是用户进程的资源)。
  • 多进程应该避免共享资源。在多线程中,我们可以比较容易地共享资源,比如使用全局变量或者传递参数。在多进程情况下,由于每个进程有自己独立的内存空间,以上方法并不合适。此时我们可以通过共享内存Manager的方法来共享资源。但这样做提高了程序的复杂度,并因为同步的需要而降低了程序的效率。

Process.PID中保存有PID,如果进程还没有start(),则PID为None。

 

我们可以从下面的程序中看到Thread对象和Process对象在使用上的相似性与结果上的不同。各个线程和进程都做一件事:打印PID。但问题是,所有的任务在打印的时候都会向同一个标准输出(stdout)输出。这样输出的字符会混合在一起,无法阅读。使用Lock同步,在一个任务输出完成之后,再允许另一个任务输出,可以避免多个任务同时向终端输出。

复制代码
# Similarity and difference of multi thread vs. multi process
# Written by Vamei

import os
import threading
import multiprocessing

# worker function
def worker(sign, lock):
    lock.acquire()
    print(sign, os.getpid())
    lock.release()

# Main
print('Main:',os.getpid())

# Multi-thread
record = []
lock  = threading.Lock()
for i in range(5):
    thread = threading.Thread(target=worker,args=('thread',lock))
    thread.start()
    record.append(thread)

for thread in record:
    thread.join()

# Multi-process
record = []
lock = multiprocessing.Lock()
for i in range(5):
    process = multiprocessing.Process(target=worker,args=('process',lock))
    process.start()
    record.append(process)

for process in record:
    process.join()
复制代码

所有Thread的PID都与主程序相同,而每个Process都有一个不同的PID。

(练习: 使用mutiprocessing包将Python多线程与同步中的多线程程序更改为多进程程序)

 

Pipe和Queue

正如我们在Linux多线程中介绍的管道PIPE和消息队列message queue,multiprocessing包中有PipeQueue类来分别支持这两种IPC机制。Pipe和Queue可以用来传送常见的对象。

 

1) Pipe可以是单向(half-duplex),也可以是双向(duplex)。我们通过mutiprocessing.Pipe(duplex=False)创建单向管道 (默认为双向)。一个进程从PIPE一端输入对象,然后被PIPE另一端的进程接收,单向管道只允许管道一端的进程输入,而双向管道则允许从两端输入。

下面的程序展示了Pipe的使用:

 

复制代码
# Multiprocessing with Pipe
# Written by Vamei

import multiprocessing as mul

def proc1(pipe):
    pipe.send('hello')
    print('proc1 rec:',pipe.recv())

def proc2(pipe):
    print('proc2 rec:',pipe.recv())
    pipe.send('hello, too')

# Build a pipe
pipe = mul.Pipe()

# Pass an end of the pipe to process 1
p1   = mul.Process(target=proc1, args=(pipe[0],))
# Pass the other end of the pipe to process 2
p2   = mul.Process(target=proc2, args=(pipe[1],))
p1.start()
p2.start()
p1.join()
p2.join()
复制代码

这里的Pipe是双向的。

Pipe对象建立的时候,返回一个含有两个元素的表,每个元素代表Pipe的一端(Connection对象)。我们对Pipe的某一端调用send()方法来传送对象,在另一端使用recv()来接收。

 

2) Queue与Pipe相类似,都是先进先出的结构。但Queue允许多个进程放入,多个进程从队列取出对象。Queue使用mutiprocessing.Queue(maxsize)创建,maxsize表示队列中可以存放对象的最大数量。

下面的程序展示了Queue的使用:

复制代码
# Written by Vamei
import os
import multiprocessing
import time
#==================
# input worker
def inputQ(queue):
    info = str(os.getpid()) + '(put):' + str(time.time())
    queue.put(info)

# output worker
def outputQ(queue,lock):
    info = queue.get()
    lock.acquire()
    print (str(os.getpid()) + '(get):' + info)
    lock.release()
#===================
# Main
record1 = []   # store input processes
record2 = []   # store output processes
lock  = multiprocessing.Lock()    # To prevent messy print
queue = multiprocessing.Queue(3)

# input processes
for i in range(10):
    process = multiprocessing.Process(target=inputQ,args=(queue,))
    process.start()
    record1.append(process)

# output processes
for i in range(10):
    process = multiprocessing.Process(target=outputQ,args=(queue,lock))
    process.start()
    record2.append(process)

for p in record1:
    p.join()

queue.close()  # No more object will come, close the queue

for p in record2:
    p.join()
复制代码

 一些进程使用put()在Queue中放入字符串,这个字符串中包含PID和时间。另一些进程从Queue中取出,并打印自己的PID以及get()的字符串。

 

总结

Process, Lock, Event, Semaphore, Condition

Pipe, Queue

 
#1楼 2012-10-14 01:41 micfan  
匆匆看过,有待实践
#2楼[楼主2012-10-14 19:28 Vamei  
@micfan
多进程和多线程的话可以放在网络应用里实践。
#3楼 2012-11-14 23:22 msheng.yeb  
你好,我没有明白为什么这里要用锁
# output worker
def outputQ(queue,lock):
info = queue.get()
lock.acquire()
print (str(os.getpid()) + '(get):' + info)
lock.release()
不是说每个进程都有自己独立的内存空间?
#4楼[楼主2012-11-15 10:11 Vamei  
@msheng.yeb
因为这些进程共享一个stdout。多个进程同时向stdout输出的话,输出结果会混合在一起。用锁,可以让一个进程输出之后,再由另一个进程输出。
#5楼 2012-11-15 23:13 msheng.yeb  
@Vamei
明白了,stdout是共享的
#6楼[楼主2012-11-16 09:40 Vamei  
@msheng.yeb
应该说是继承的。你可以看一下我的Linux教程里的fork机制。
#7楼 2012-11-17 23:47 msheng.yeb  
@Vamei
不叫继承吧。fork的话,就是把父进程的内容拷贝一份给子进程,包括stdout,然后父进程和子进程有各自的stdout。我猜想,是由于这个stdout指向了同一个终端,所以不锁的话,有可能造成输出混乱
#8楼[楼主2012-11-18 10:06 Vamei  
@msheng.yeb
嗯,原理就是这样。
#9楼 2013-01-14 10:30 moose  
为什么我跑上面的例子,跑一次电脑死一次……
#10楼[楼主2013-01-14 11:00 Vamei  
@moose
少几个进程试一试?
#11楼 2013-01-15 23:09 bells  
练习:我是这样写的:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
import time
import os
import multiprocessing
 
def doChore():
    time.sleep(0.5)
 
def booth(pid):
    global i
    global lock
    while True:
        lock.acquire()
        if i != 0:
            i = i - 1
            print os.getpid(), "  ", pid, ': now left:', i
            doChore()
        else:
            print "Thread_id", pid, "no more tickers"
            os._exit(0)
        lock.release()
        doChore()
 
i = 100
lock = multiprocessing.Lock()
 
for k in range(10):
    process = multiprocessing.Process(target=booth, args=(k, ))
    process.start()


运行输出:
2819 0 : now left: 99
2820 1 : now left: 99
2821 2 : now left: 99
2822 3 : now left: 99
2823 4 : now left: 99
2824 5 : now left: 99
2825 6 : now left: 99
2826 7 : now left: 99
2827 8 : now left: 99
2828 9 : now left: 99
2819 0 : now left: 98
2820 1 : now left: 98
2821 2 : now left: 98
2822 3 : now left: 98
2823 4 : now left: 98
2824 5 : now left: 98
2825 6 : now left: 98
2826 7 : now left: 98
2827 8 : now left: 98
2828 9 : now left: 98
2819 0 : now left: 97
2820 1 : now left: 97
2821 2 : now left: 97
...
觉得输出有问题。。比如99不应该输出10次? 
楼主上面的代码有问题吗?
#12楼 2013-02-26 14:35 冬火虫子  
运行了一下第一个示例程序,但是每次运行总是会死机,而且通过任务管理器观察发现,进程越来越多,这是什么情况呢?
#13楼[楼主2013-02-26 15:12 Vamei  
@冬火虫子
你分别运行下多进程和多线程,看是哪一部分出问题了。我是用Linux测试的,没有windows的电脑。
#14楼[楼主2013-02-26 15:20 Vamei  
@bells
我觉得这是多进程下Lock共享的问题。
你尝试将Lock作为参数传递给子进程试一试。
#15楼 2013-04-18 10:15 skyla  
为什么写队列的时候不加锁?难道不会产生竞态?
#16楼[楼主2013-04-18 13:31 Vamei  
@skyla
你是说put会发生竞态么?
#17楼 2013-04-18 14:13 skyla  
对,是不是队列本身就支持原子操作的? 楼主我做了下练习,代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
import multiprocessing
import time
import os
 
def doChore():
    time.sleep(0.5)
 
def booth(tid, block, bqueue):
    global i
    global lock
    while True:
        block.acquire() 
        i = int(bqueue.get())
        if i != 0:
            i = i - 1               
            print(tid,':now left:',i)
            bqueue.put(str(i))
            doChore()                
        else:
            print("Thread_id",tid," No more tickets")
            os._exit(0)          
        block.release()              
        doChore()                  
 
record = []                    
lock = multiprocessing.Lock()   
queue = multiprocessing.Queue(3)
queue.put(str(30))
 
for k in range(10):
    new_process = multiprocessing.Process(target=booth,args=(k,lock,queue))
    new_process.start()       
    record.append(new_process)
     
for p in record:
    p.join()
 
queue.close()

运行输出:

root@skyla-virtual-machine:/home/skyla/temp# python3 test.py 
5 :now left: 29
3 :now left: 28
2 :now left: 27
1 :now left: 26
0 :now left: 25
4 :now left: 24
6 :now left: 23
8 :now left: 22
7 :now left: 21
9 :now left: 20
5 :now left: 19
9 :now left: 18
2 :now left: 17
1 :now left: 16
0 :now left: 15
4 :now left: 14
6 :now left: 13
4 :now left: 12
7 :now left: 11
3 :now left: 10
7 :now left: 9
9 :now left: 8
2 :now left: 7
9 :now left: 6
0 :now left: 5
9 :now left: 4
0 :now left: 3
9 :now left: 2
5 :now left: 1
9 :now left: 0
Thread_id 7 No more tickets
不知道为什么程序完成后就卡住了,不能自动退出,尝试了用sys.exit()也不行,还请楼主帮忙分析下
#18楼[楼主2013-04-18 14:33 Vamei  
@skyla
队列是存储多个对象的。当调用put的时候,Python就将对象放入队列。
这里,总票数是一个单一对象,队列并不适用。
#19楼 2013-06-03 11:49 Jack.R.S  
楼主,不知道你用过multiprocessing的Pool没有,我用map_async这个方法的时候,有个问题,该方法第一个参数为函数,后面的是一个迭代对象,如
p.map_async(init_sock, [(server_sock, SIZE), (server_sock, SIZE)]),我这有调用init_sock的时候,发现init_sock没法传递sock对象,如果我吧server_sock换成int对象,就可以了,单独调用init_sock是没问题的。很奇怪!init_sock原型def init_sock((argv1, argv2))
#20楼[楼主2013-06-05 16:41 Vamei  
@Jack.R.S
我没这么用过。有空了研究一下。
#21楼 2013-09-10 11:05 天楚  
vamei,你好
看了你的博客有一段时间的了。
抱着不求甚解的态度看到了这一段(我觉得我学不来编程,也许这只是自己给自己的借口吧。没什么东西是不需要积累的,但是我觉得看不到什么进步)
我学习python主要是用作主机的日常维护。
但是看到多进程这一步的时候,我到我们服务器上做测试。结果发现python 2.4竟然没有multiprocess这个模块。网上找了下python升级的资料,都挺复杂的。还不能把原先的python删除之类的。
也许我太懒,只图“一招鲜吃遍天”了
#22楼 2013-12-13 17:23 bg2bkk  
http://my.oschina.net/u/593413/blog/88573
或许楼上死机的哥们可以看看这个帖子。
不过linux下没有死机,一开始都没有
#23楼 2014-02-13 18:43 M2014  
我把这个函数中的锁注释掉了,又添加了更多的打印语句,同时把 sign 参数也补充了id以示区别:

def worker(sign, lock):
#lock.acquire()
print(sign, os.getpid())
print(sign, os.getpid())
print(sign, os.getpid())
print(sign, os.getpid())
print(sign, os.getpid())
#lock.release()

程序运行后的打印结果并没有乱……试了好多次,难道标准输出有同步处理?

全部代码如下:

1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
import os
import threading
import multiprocessing
 
def woker(sign, lock):
        print(sign, os.getpid())
        print(sign, os.getpid())
        print(sign, os.getpid())
        print(sign, os.getpid())
        print(sign, os.getpid())
 
print('Main', os.getpid())
 
#multithread
record = []
lock = threading.Lock()
for i in range(20):
        sig = 'thread_%d' % i
        thread = threading.Thread(target=woker, args=(sig, lock))
        thread.start()
        record.append(thread)
 
for thread in record:
        thread.join()
#24楼 2014-03-28 18:01 Alex Jone Zeng  
@ Vamei 
’用mutiprocessing.Queue(maxsize)创建,maxsize表示队列中可以存放对象的最大数量’

最大数量作何解释呢,10个放入multiprocessing.Queue(3)中为什么没有报错呢?
#25楼 2014-04-13 17:36 安静从容  
学习了,今天学习了Threading和multiprocessing 
这两者一个是多线程,一个是多进程,那哪个平时会优先考虑使用呢?
#26楼[楼主2014-04-14 10:06 Vamei  
@安静从容
这个比较难讲。多线程主要特征是可以共享内存。可是有的系统不支持多进程或多线程。所以是一个综合的决定。

 

posted @ 2014-05-02 13:11  cnshen  阅读(297)  评论(0编辑  收藏  举报