python多线程
1.什么是python GIL
全局解释器锁,Python中的一个线程对应于c语言的一个线程,gil使得同一个时刻只有一个线程在一个cpu上执行字节码,无法将多个线程映射到多个cpu上执行
2.创建线程的两种方式
#函数创建 import threading import time def get_url(t): print(t) time.sleep(2) def get_html(t): print(t) time.sleep(2) t1 = threading.Thread(target=get_url, args=('get_url',)) t2 = threading.Thread(target=get_html, args=('get_html',)) #设置线程随主线结束而结束 必须在start之前调用 t1.setDaemon(True) t2.setDaemon(True) #主线程等待子线程的结束而结束 t1.join() t2.join() print('线程结束') #类创建 import threading import time class GetUrl(threading.Thread): def run(self): print('geturl') class GetHtml(threading.Thread): def run(self): print('gethtml') t1 = GetUrl() t2 = GetHtml() t1.start() t2.start() #设置线程随主线结束而结束 必须在start之前调用 t1.setDaemon(True) t2.setDaemon(True) #主线程等待子线程的结束而结束 t1.join() t2.join()+ print('线程结束')
3.线程间通信
使用Queue
import threading from queue import Queue import time def get_url(t): i = 0 while True: i+=1 que.put(i) time.sleep(2) def get_html(t): j = 0 while True: print(que.get()) time.sleep(2) que = Queue(maxsize=10) t1 = threading.Thread(target=get_url, args=('get_url',)) t2 = threading.Thread(target=get_html, args=('get_html',)) t1.start() t2.start() que.join() #设置线程随主线结束而结束 必须在start之前调用 # t1.setDaemon(True) # t2.setDaemon(True) #主线程等待子线程的结束而结束 t1.join() t2.join() print('线程结束')
常用方法
q.qsize() 返回队列的大小
q.empty() 如果队列为空,返回True,反之False
q.full() 如果队列满了,返回True,反之False
q.full 与 maxsize 大小对应
q.get([block[, timeout]]) 获取队列,timeout等待时间
q.get_nowait() 相当q.get(False) 非阻塞 q.put(item) 写入队列,timeout等待时间
q.put_nowait(item) 相当q.put(item, False)
q.task_done() 在完成一项工作之后,q.task_done() 函数向任务已经完成的队列发送一个信号
q.join() 实际上意味着等到队列为空,再执行别的操作
4.线程锁Lock Rlock
from threading import Lock,RLock from threading import Thread total = 0 lock = Lock() #使用Rlock 在同一个线程里面 可以连续多次调用多次acquire 一定要注意acquire的次数要跟release的次数相同 def add(): global total global lock for i in range(1000000): lock.acquire() total += 1 lock.release() def desc(): global total global lock for i in range(1000000): lock.acquire() total -= 1 lock.release() t1 = Thread(target=add, args=()) t2 = Thread(target=desc, args=()) t1.start() t2.start() t1.join() t2.join() print(total)
5.线程condition
所谓条件变量,即这种机制是在满足了特定的条件后,线程才可以访问相关的数据。
比如生产者消费者模型 我们可以通过condition控制数量的增减
Condition(条件变量)通常与一个锁关联。需要在多个Contidion中共享一个锁时,可以传递一个Lock/RLock实例给构造方法,否则它将自己生成一个RLock
实例。
可以认为,除了Lock带有的锁定池外,Condition还包含一个等待池,池中的线程处于状态图中的等待阻塞状态,直到另一个线程调用notify()/notifyAll()通知;
得到通知后线程进入锁定池等待锁定。
Condition():
- acquire(): 线程锁
- release(): 释放锁
- wait(timeout): 线程挂起,直到收到一个notify通知或者超时(可选的,浮点数,单位是秒s)才会被唤醒继续运行。wait()必须在已获得Lock前提下才能调用,否则会触发RuntimeError。
- notify(n=1): 通知其他线程,那些挂起的线程接到这个通知之后会开始运行,默认是通知一个正等待该condition的线程,最多则唤醒n个等待的线程。notify()必须在已获得Lock前提下才能调用,否则会触发RuntimeError。notify()不会主动释放Lock。
- notifyAll(): 如果wait状态线程比较多,notifyAll的作用就是通知所有线程
实现场景:当a同学王火锅里面添加鱼丸加满后(最多5个,加满后通知b去吃掉),通知b同学去吃掉鱼丸(吃到0的时候通知a同学继续添加)
1 from threading import Thread 2 from threading import Condition 3 import time 4 num = 0 5 class shengchan(Thread): 6 def __init__(self, con): 7 super().__init__(name='生产者') 8 self.con = con 9 def run(self): 10 print(self.name) 11 global num 12 self.con.acquire() 13 while True: 14 print('开始添加') 15 num +=1 16 print('鱼丸个数%s',str(num)) 17 time.sleep(2) 18 19 if num >= 5: 20 print('火锅里的鱼丸超过5个') 21 self.con.notify() 22 self.con.wait() 23 24 self.con.release() 25 26 class xiaofeizhe(Thread): 27 def __init__(self, con): 28 super().__init__(name='消费者') 29 self.con = con 30 def run(self): 31 global num 32 print(self.name) 33 self.con.acquire() 34 while True: 35 print('开始消费') 36 num -= 1 37 print('鱼丸个数%s',str(num)) 38 time.sleep(2) 39 if num <=0 : 40 print('火锅里的鱼丸消费完毕') 41 self.con.notify() 42 self.con.wait() 43 self.con.release() 44 con = Condition() 45 s = shengchan(con) 46 c = xiaofeizhe(con) 47 s.start() 48 c.start()
6.Semaphore信号量
threading模块里的Semaphore类实现了信号量对象,可用于控制获取资源的线程数量。所具有的acquire()和release()方法,可以用with语句的上下文管理器。 当进入时,将调用acquire()方法,当退出时,将调用release()。
emaphore是一个内置的计数器
每当调用acquire()时,内置计数器-1
每当调用release()时,内置计数器+1
计数器不能小于0,当计数器为0时,acquire()将阻塞线程直到其他线程调用release()。
from threading import Thread from threading import Semaphore import time class Test(Thread): def __init__(self,sem): super().__init__() self.sem = sem def run(self): time.sleep(2) print('控制线程并发数量') self.sem.release() sem = Semaphore(3) for i in range(300000): sem.acquire() t = Test(sem) t.start()
7.线程同步顺序执行
from threading import Thread from threading import Lock from threading import Semaphore import time def test1(): while True: l1.acquire() print('线程1') time.sleep(1) l2.release() def test2(): while True: l2.acquire() print('线程2') time.sleep(1) l3.release() def test3(): while True: l3.acquire() print('线程3') time.sleep(1) l1.release() l1 = Lock() l2 = Lock() l3 = Lock() t1 = Thread(target=test1, ) t2 = Thread(target=test2, ) t3 = Thread(target=test3, ) l2.acquire() l3.acquire() t1.start() t2.start() t3.start()
8.线程池
Python
中已经有了threading
模块,为什么还需要线程池呢,线程池又是什么东西呢?在介绍线程同步的信号量机制的时候,举得例子是爬虫的例子,需要控
制同时爬取的线程数,例子中创建了20个线程,而同时只允许3个线程在运行,但是20个线程都需要创建和销毁,线程的创建是需要消耗系统资源的,有没有
更好的方案呢?其实只需要三个线程就行了,每个线程各分配一个任务,剩下的任务排队等待,当某个线程完成了任务的时候,排队任务就可以安排给这个线
程继续执行。
这就是线程池的思想(当然没这么简单),但是自己编写线程池很难写的比较完美,还需要考虑复杂情况下的线程同步,很容易发生死锁。从Python3.2
开
始,标准库为我们提供了concurrent.futures
模块,它提供了ThreadPoolExecutor
和ProcessPoolExecutor
两个类,实现了对threading
和multiprocessing
的进 一步抽象(这里主要关注线程池),不仅可以帮我们自动调度线程,还可以做到:
- 主线程可以获取某一个线程(或者任务的)的状态,以及返回值。
- 当一个线程完成的时候,主线程能够立即知道。
- 让多线程和多进程的编码接口一致。
from concurrent.futures import ThreadPoolExecutor import time def get_html(times): time.sleep(times) return times executor = ThreadPoolExecutor(max_workers=2) #通过submit函数提交执行的函数到线程中,submit函数立即返回 不阻塞 task1 = executor.submit(get_html, (3)) task2 = executor.submit(get_html, (2)) #done方法用于判断某个任务是否完成 print(task1.done()) #cancel方法用于取消某个任务 该任务没有放入线程池中才能取消成功 print(task2.cancel()) time.sleep(4) print(task1.done()) #result获取task的执行结果 print(task1.result())
as_completed
上面虽然提供了判断任务是否结束的方法,但是不能在主线程中一直判断啊。有时候我们是得知某个任务结束了,就去获取结果,而不是一直判断每个任务有 没有结束。这是就可以使用as_completed
方法一次取出所有任务的结果。
from concurrent.futures import ThreadPoolExecutor, as_completed import time # 参数times用来模拟网络请求的时间 def get_html(times): time.sleep(times) print("get page {}s finished".format(times)) return times executor = ThreadPoolExecutor(max_workers=2) urls = [3, 2, 4] # 并不是真的url all_task = [executor.submit(get_html, (url)) for url in urls] for future in as_completed(all_task): data = future.result() print("in main: get page {}s success".format(data)) # 执行结果 # get page 2s finished # in main: get page 2s success # get page 3s finished # in main: get page 3s success # get page 4s finished # in main: get page 4s success
as_completed()
方法是一个生成器,在没有任务完成的时候,会阻塞,在有某个任务完成的时候,会yield
这个任务,就能执行for循环下面的语句,然后继续 阻塞住,循环到所有的任务结束。从结果也可以看出,先完成的任务会先通知主线程。
map
除了上面的as_completed
方法,还可以使用executor.map
方法,但是有一点不同。
from concurrent.futures import ThreadPoolExecutor import time # 参数times用来模拟网络请求的时间 def get_html(times): time.sleep(times) print("get page {}s finished".format(times)) return times executor = ThreadPoolExecutor(max_workers=2) urls = [3, 2, 4] # 并不是真的url for data in executor.map(get_html, urls): print("in main: get page {}s success".format(data)) # 执行结果 # get page 2s finished # get page 3s finished # in main: get page 3s success # in main: get page 2s success # get page 4s finished # in main: get page 4s success
使用map
方法,无需提前使用submit
方法,map
方法与python
标准库中的map
含义相同,都是将序列中的每个元素都执行同一个函数。上面的代码就是对urls
的 每个元素都执行get_html
函数,并分配各线程池。可以看到执行结果与上面的as_completed
方法的结果不同,输出顺序和urls
列表的顺序相同,就算2s的任 务先执行完成,也会先打印出3s的任务先完成,再打印2s的任务完成。
wait
wait
方法可以让主线程阻塞,直到满足设定的要求。
from concurrent.futures import ThreadPoolExecutor, wait, ALL_COMPLETED, FIRST_COMPLETED import time # 参数times用来模拟网络请求的时间 def get_html(times): time.sleep(times) print("get page {}s finished".format(times)) return times executor = ThreadPoolExecutor(max_workers=2) urls = [3, 2, 4] # 并不是真的url all_task = [executor.submit(get_html, (url)) for url in urls] wait(all_task, return_when=ALL_COMPLETED) print("main") # 执行结果 # get page 2s finished # get page 3s finished # get page 4s finished # main
wait
方法接收3个参数,等待的任务序列、超时时间以及等待条件。等待条件return_when
默认为ALL_COMPLETED
,表明要等待所有的任务都结束。可以看到运 行结果中,确实是所有任务都完成了,主线程才打印出main
。等待条件还可以设置为FIRST_COMPLETED
,表示第一个任务完成就停止等待。
。