Python标准库10 多进程初步 (multiprocessing包)(转载)
Python标准库10 多进程初步 (multiprocessing包)
作者:Vamei 出处:http://www.cnblogs.com/vamei 欢迎转载,也请保留这段声明。谢谢!
我们已经见过了使用subprocess包来创建子进程,但这个包有两个很大的局限性:1) 我们总是让subprocess运行外部的程序,而不是运行一个Python脚本内部编写的函数。2) 进程间只通过管道进行文本交流。以上限制了我们将subprocess包应用到更广泛的多进程任务。(这样的比较实际是不公平的,因为subprocessing本身就是设计成为一个shell,而不是一个多进程管理包)
threading和multiprocessing
(请尽量先阅读Python多线程与同步)
multiprocessing包是Python中的多进程管理包。与threading.Thread类似,它可以利用multiprocessing.Process对象来创建一个进程。该进程可以运行在Python程序内部编写的函数。该Process对象与Thread对象的用法相同,也有start(), run(), join()的方法。此外multiprocessing包中也有Lock/Event/Semaphore/Condition类 (这些对象可以像多线程那样,通过参数传递给各个进程),用以同步进程,其用法与threading包中的同名类一致。所以,multiprocessing的很大一部份与threading使用同一套API,只不过换到了多进程的情境。
但在使用这些共享API的时候,我们要注意以下几点:
- 在UNIX平台上,当某个进程终结之后,该进程需要被其父进程调用wait,否则进程成为僵尸进程(Zombie)。所以,有必要对每个Process对象调用join()方法 (实际上等同于wait)。对于多线程来说,由于只有一个进程,所以不存在此必要性。
- multiprocessing提供了threading包中没有的IPC(比如Pipe和Queue),效率上更高。应优先考虑Pipe和Queue,避免使用Lock/Event/Semaphore/Condition等同步方式 (因为它们占据的不是用户进程的资源)。
- 多进程应该避免共享资源。在多线程中,我们可以比较容易地共享资源,比如使用全局变量或者传递参数。在多进程情况下,由于每个进程有自己独立的内存空间,以上方法并不合适。此时我们可以通过共享内存和Manager的方法来共享资源。但这样做提高了程序的复杂度,并因为同步的需要而降低了程序的效率。
Process.PID中保存有PID,如果进程还没有start(),则PID为None。
我们可以从下面的程序中看到Thread对象和Process对象在使用上的相似性与结果上的不同。各个线程和进程都做一件事:打印PID。但问题是,所有的任务在打印的时候都会向同一个标准输出(stdout)输出。这样输出的字符会混合在一起,无法阅读。使用Lock同步,在一个任务输出完成之后,再允许另一个任务输出,可以避免多个任务同时向终端输出。
# Similarity and difference of multi thread vs. multi process
# Written by Vamei
import os
import threading
import multiprocessing
# worker function
def worker(sign, lock):
lock.acquire()
print(sign, os.getpid())
lock.release()
# Main
print('Main:',os.getpid())
# Multi-thread
record = []
lock = threading.Lock()
for i in range(5):
thread = threading.Thread(target=worker,args=('thread',lock))
thread.start()
record.append(thread)
for thread in record:
thread.join()
# Multi-process
record = []
lock = multiprocessing.Lock()
for i in range(5):
process = multiprocessing.Process(target=worker,args=('process',lock))
process.start()
record.append(process)
for process in record:
process.join()
所有Thread的PID都与主程序相同,而每个Process都有一个不同的PID。
(练习: 使用mutiprocessing包将Python多线程与同步中的多线程程序更改为多进程程序)
Pipe和Queue
正如我们在Linux多线程中介绍的管道PIPE和消息队列message queue,multiprocessing包中有Pipe类和Queue类来分别支持这两种IPC机制。Pipe和Queue可以用来传送常见的对象。
1) Pipe可以是单向(half-duplex),也可以是双向(duplex)。我们通过mutiprocessing.Pipe(duplex=False)创建单向管道 (默认为双向)。一个进程从PIPE一端输入对象,然后被PIPE另一端的进程接收,单向管道只允许管道一端的进程输入,而双向管道则允许从两端输入。
下面的程序展示了Pipe的使用:
# Multiprocessing with Pipe
# Written by Vamei
import multiprocessing as mul
def proc1(pipe):
pipe.send('hello')
print('proc1 rec:',pipe.recv())
def proc2(pipe):
print('proc2 rec:',pipe.recv())
pipe.send('hello, too')
# Build a pipe
pipe = mul.Pipe()
# Pass an end of the pipe to process 1
p1 = mul.Process(target=proc1, args=(pipe[0],))
# Pass the other end of the pipe to process 2
p2 = mul.Process(target=proc2, args=(pipe[1],))
p1.start()
p2.start()
p1.join()
p2.join()
这里的Pipe是双向的。
Pipe对象建立的时候,返回一个含有两个元素的表,每个元素代表Pipe的一端(Connection对象)。我们对Pipe的某一端调用send()方法来传送对象,在另一端使用recv()来接收。
2) Queue与Pipe相类似,都是先进先出的结构。但Queue允许多个进程放入,多个进程从队列取出对象。Queue使用mutiprocessing.Queue(maxsize)创建,maxsize表示队列中可以存放对象的最大数量。
下面的程序展示了Queue的使用:
# Written by Vamei
import os
import multiprocessing
import time
#==================
# input worker
def inputQ(queue):
info = str(os.getpid()) + '(put):' + str(time.time())
queue.put(info)
# output worker
def outputQ(queue,lock):
info = queue.get()
lock.acquire()
print (str(os.getpid()) + '(get):' + info)
lock.release()
#===================
# Main
record1 = [] # store input processes
record2 = [] # store output processes
lock = multiprocessing.Lock() # To prevent messy print
queue = multiprocessing.Queue(3)
# input processes
for i in range(10):
process = multiprocessing.Process(target=inputQ,args=(queue,))
process.start()
record1.append(process)
# output processes
for i in range(10):
process = multiprocessing.Process(target=outputQ,args=(queue,lock))
process.start()
record2.append(process)
for p in record1:
p.join()
queue.close() # No more object will come, close the queue
for p in record2:
p.join()
一些进程使用put()在Queue中放入字符串,这个字符串中包含PID和时间。另一些进程从Queue中取出,并打印自己的PID以及get()的字符串。
总结
Process, Lock, Event, Semaphore, Condition
Pipe, Queue
因为这些进程共享一个stdout。多个进程同时向stdout输出的话,输出结果会混合在一起。用锁,可以让一个进程输出之后,再由另一个进程输出。
明白了,stdout是共享的
不叫继承吧。fork的话,就是把父进程的内容拷贝一份给子进程,包括stdout,然后父进程和子进程有各自的stdout。我猜想,是由于这个stdout指向了同一个终端,所以不锁的话,有可能造成输出混乱
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
|
import time import os import multiprocessing def doChore(): time.sleep( 0.5 ) def booth(pid): global i global lock while True : lock.acquire() if i ! = 0 : i = i - 1 print os.getpid(), " " , pid, ': now left:' , i doChore() else : print "Thread_id" , pid, "no more tickers" os._exit( 0 ) lock.release() doChore() i = 100 lock = multiprocessing.Lock() for k in range ( 10 ): process = multiprocessing.Process(target = booth, args = (k, )) process.start() |
运行输出:
2819 0 : now left: 99
2820 1 : now left: 99
2821 2 : now left: 99
2822 3 : now left: 99
2823 4 : now left: 99
2824 5 : now left: 99
2825 6 : now left: 99
2826 7 : now left: 99
2827 8 : now left: 99
2828 9 : now left: 99
2819 0 : now left: 98
2820 1 : now left: 98
2821 2 : now left: 98
2822 3 : now left: 98
2823 4 : now left: 98
2824 5 : now left: 98
2825 6 : now left: 98
2826 7 : now left: 98
2827 8 : now left: 98
2828 9 : now left: 98
2819 0 : now left: 97
2820 1 : now left: 97
2821 2 : now left: 97
...
觉得输出有问题。。比如99不应该输出10次?
楼主上面的代码有问题吗?
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
25
26
27
28
29
30
31
32
33
34
35
36
37
38
|
import multiprocessing import time import os def doChore(): time.sleep( 0.5 ) def booth(tid, block, bqueue): global i global lock while True : block.acquire() i = int (bqueue.get()) if i ! = 0 : i = i - 1 print (tid, ':now left:' ,i) bqueue.put( str (i)) doChore() else : print ( "Thread_id" ,tid, " No more tickets" ) os._exit( 0 ) block.release() doChore() record = [] lock = multiprocessing.Lock() queue = multiprocessing.Queue( 3 ) queue.put( str ( 30 )) for k in range ( 10 ): new_process = multiprocessing.Process(target = booth,args = (k,lock,queue)) new_process.start() record.append(new_process) for p in record: p.join() queue.close() |
运行输出:
root@skyla-virtual-machine:/home/skyla/temp# python3 test.py
5 :now left: 29
3 :now left: 28
2 :now left: 27
1 :now left: 26
0 :now left: 25
4 :now left: 24
6 :now left: 23
8 :now left: 22
7 :now left: 21
9 :now left: 20
5 :now left: 19
9 :now left: 18
2 :now left: 17
1 :now left: 16
0 :now left: 15
4 :now left: 14
6 :now left: 13
4 :now left: 12
7 :now left: 11
3 :now left: 10
7 :now left: 9
9 :now left: 8
2 :now left: 7
9 :now left: 6
0 :now left: 5
9 :now left: 4
0 :now left: 3
9 :now left: 2
5 :now left: 1
9 :now left: 0
Thread_id 7 No more tickets
不知道为什么程序完成后就卡住了,不能自动退出,尝试了用sys.exit()也不行,还请楼主帮忙分析下
def worker(sign, lock):
#lock.acquire()
print(sign, os.getpid())
print(sign, os.getpid())
print(sign, os.getpid())
print(sign, os.getpid())
print(sign, os.getpid())
#lock.release()
程序运行后的打印结果并没有乱……试了好多次,难道标准输出有同步处理?
全部代码如下:
1
2
3
4
5
6
7
8
9
10
11
12
13
14
15
16
17
18
19
20
21
22
23
24
|
import os import threading import multiprocessing def woker(sign, lock): print (sign, os.getpid()) print (sign, os.getpid()) print (sign, os.getpid()) print (sign, os.getpid()) print (sign, os.getpid()) print ( 'Main' , os.getpid()) #multithread record = [] lock = threading.Lock() for i in range ( 20 ): sig = 'thread_%d' % i thread = threading.Thread(target = woker, args = (sig, lock)) thread.start() record.append(thread) for thread in record: thread.join() |