Python的多线程实现
概述
Python虚拟机使用GIL(Global Interpreter Lock,全局解释器锁)来实现互斥线程对共享资源的访问,暂时无法利用多处理器的优势。
Python中,thread和threading均支持多线程,threading是对thread的封装与升级,一般使用threading模块,在具体实现中,一般结合队列Queue(线程安全)使用,实现多个线程之间的同步。
多线程的一些基本概念
对象互斥锁:用来保证共享数据的操作的完整性,即任何时刻,只能有一个线程访问该对象。Python中使用threading模块提供的Lock类,争夺资源时,首先acquire(),使用完成中release()释放。
死锁与可重入锁:对象互斥锁实现了简单的公共资源的保护,但是实际应用中,如果有多个公共资源,在线程间共享多个资源的时候,如果两个线程分别占有一部分资源并且同时等待对方的资源,就会出现死锁。所谓死锁: 是指两个或两个以上的进程在执行过程中,因争夺资源而造成的一种互相等待的现象,若无外力作用,它们都将无法推进下去。此时称系统处于死锁状态或系统产生了死锁,这些永远在互相等待的进程称为死锁进程。 这种情况下Python使用可重入锁threading.RLock实现,RLock内部维护着一个Lock和一个counter变量,counter记录了acquire的次数,从而使得资源可以被多次require。直到一个线程所有的acquire都被release,其他的线程才能获得资源。
常用的多线程的实现模式
1. threading+队列
当多个线程需要共享数据或者资源的时候,可能会使得线程的使用变得复杂。线程模块提供了许多同步原语,包括信号量、条件变量、事件和锁。当这些选项存在时,最佳实践是转而关注于使用队列。相比较而言,队列更容易处理,并且可以使得线程编程更加安全,因为它们能够有效地传送单个线程对资源的所有访问,并支持更加清晰的、可读性更强的设计模式。
参考1的例3和例4分别演示了使用单个队列和多个队列实现多线程,具有较高的使用性。
参考3的引例1和引例2演示了生产者/消费者模式、以及简单线程池的实现。
2. Map的并发实现。
这种方式直接使用multiprocessing.dummy 中封装的现成的Pool,写好具体的业务处理函数,只需短短四行代码即可实现多线程,并且可以利用多处理器提高效率。
参见参考3中的例子。
3. 多线程的封装
待实现
参考
1. 使用Python进行线程编程:http://www.ibm.com/developerworks/cn/aix/library/au-threadingpython/
2. Python:使用threading模块实现多线程编程:http://blog.csdn.net/bravezhe/article/details/8585437
3. Python并行任务技巧:http://www.oschina.net/translate/python-parallelism-in-one-line