Python之线程
一、线程的起源
1,进程
之前我们已经了解了操作系统中进程的概念,程序并不能单独运行,只有将程序装载到内存中,系统为其分配资源才能运行,而这种执行的程序就称之为进程。程序和进程的区别就在于:程序是指令的集合,它是进程运行的静态描述文本;进程是程序的一次活动,属于动态概念。在多道编程中,我们允许多个程序同时加载到内存中,在操作系统的调度下,可以实现并发的执行。这样的设计大大提高了CPU的利用率。
2,为什么还出现线程
例子:pycharm三个任务:键盘输入、屏幕输出、自动保存硬盘,如果三个任务是同步工作的,那在键盘输入的时候我们就看不到屏幕输入,而我们需要在键盘输入的时候同时在屏幕上显示,还能在硬盘保存。方案一,此时我们可以开三个进程来完成,三个进程之间还要通过进程通信的介质帮助完成。方案二,其实我们还可以用线程来完成,此时我们可以在一个进程中开三个线程,由于线程间是资源共享的,所以不用借助介质就能完成数据交换。我们对比两种方案,方案一要开三个进程,如果有10000个任务,那就要开10000个进程,开进程很占内存的,而且开进程很耗时间的,还要借助介质才能实现通信,而方案就不一样了,只需开一个进程,节省了内存空间,缩短了时间,自身就可以实现数据共享,那肯定选择方案二,从而就凸显了线程的必要性。
3,线程的出现
随着计算机技术的发展,进程出现了很多弊端,一是由于进程是资源拥有者,创建、撤销与切换存在较大的时空开销,因此引入轻型进程;二是由于对称多处理机出现,可以满足多个运行单位,二多个进程并行开销过大,出现了能独立运行的基本单位——线程,进程是资源分配的最小单位,线程是CPU调度的最小单位,每个进程中至少有一个线程,进程只是把资源集中到一起,而线程才是CPU上的执行单位。
4,线程与进程的关系
线程就是进程的组成单元,每一个进程至少有一个线程,同一个进程里的多个线程,可以共享进程里的资源,而且线程间切换比进程间切换快很多,进程不是一个可执行的实体,真正去执行程序的是线程,可以理解进程解释装线程的容器。
二,线程的创建方法
由于线程诞生于进程,所以说线程的创建和进程一模一样,只是引用的模块不一样而已。
1,方法一
from threading import Thread #和进程相比,就是线程引入的是Thread模块 def fun1(i): print('你是%s'%(i)) if __name__ == '__main__': t=Thread(target=fun1,args=(1,)) t.start() print('dddddddd')
2,方法二
from threading import Thread class Mythread(Thread): def __init__(self,nn): super().__init__() self.nn=nn def run(self): print('nishi%s'%self.nn) if __name__ == '__main__': t=Mythread('haha') t.start() print('dfssd')
三、多进程与多线程的效率对比
from multiprocessing import Process from threading import Thread import time def fun(): print('ffff') if __name__ == '__main__': l1=[] t_s_t=time.time() for i in range(100): t=Thread(target=fun,) l1.append(t) t.start() [tt.join() for tt in l1] t_e_t=time.time() l2 = [] p_s_t = time.time() for i in range(100): p = Process(target=fun, ) l1.append(p) p.start() [pp.join() for pp in l2] p_e_t = time.time() print('线程',t_e_t-t_s_t) print('进程',p_e_t-p_s_t)
线程 0.04086899757385254
进程 3.268401861190796
从上面的结果看,线程的效率比进程高很多,这主要是创建、销毁进程和进程间切换太耗时间。
四、线程的其他方法
from threading import Thread,current_thread import threading,time def fun(i): time.sleep(2) print('我是%s号'%i) print('%s'%current_thread().getName()) #获取线程的name print('%s'%current_thread().ident) #获取线程的id if __name__ == '__main__': for i in range(10): t=Thread(target=fun,args=(i,)) t.start() print(threading.enumerate()) #返回一个正在运行线程的列表 print(threading.active_count()) #返回正在运行线程的数量
五、死锁现象
from threading import Thread,Lock,RLock import time def fun(loa,lob): loa.acquire() time.sleep(1) print('aaaaa') lob.acquire() print('bbbbb') lob.release() loa.release() def fun1(loa,lob): lob.acquire() time.sleep(1) print('cccccc') loa.acquire() print('ddddd') loa.release() lob.release() if __name__ == '__main__': # loa=Lock() #当我们用Lock时就会出现死锁现象,由于是异步执行的,fun1拿到loa,fun2拿到lob,然后fun1再去拿lob,fun2再去拿loa,但现在两把锁都被对方拿着,还没释放,从而形成死锁 # lob=Lock() loa=lob=RLock() #当我们用Rlock时,若fun1先抢到,就必须等fun1用完,fun2才能拿到,这称为递归锁 t1=Thread(target=fun,args=(loa,lob)) t2=Thread(target=fun1,args=(loa,lob)) t1.start() t2.start()
六、主进程和主线程的结束标志
主进程在主进程的代码执行完就结束,而主线程要等到在同一进程中的非守护线程代码执行完毕才结束。
主进程的结束标志
from multiprocessing import Process import time def fun1(): time.sleep(2) print('我是fun1') def fun2(): time.sleep(3) print('我是fun2') if __name__ == '__main__': p1=Process(target=fun1,) p2=Process(target=fun2,) p1.daemon=True #p1现在是守护进程,在主进程结束后,随之结束 p1.start() p2.start() print('我是主进程') #主进程会在这句代码执行完后结束,p1也会跟着结束,虽说p1还没执行完,但是p1直接被干死了
结果如下
我是主进程
我是fun2
主线程结束标志
from threading import Thread import time def fun1(): time.sleep(2) print('我是fun1') def fun2(): time.sleep(3) print('我是fun2') if __name__ == '__main__': t1=Thread(target=fun1,) t2=Thread(target=fun2,) t1.daemon=True #把t1设为守护线程 t1.start() t2.start() print('我是主线程') #这句代码执行完后,主线程还没结束,主线程要等待非守护线程t2执行完毕后才结束,因为t2执行时间比t1长,所以这次t1也会执行完毕
七、线程的信号量、事件
线程的信号量、事件和进程的信号量、事件的用法一样,从threading中引入Semaphore、Event。
八、线程的队列
import queue q=queue.Queue(3) #先进先出 q.put(2) q.put(4) print(q.get()) q1=queue.LifoQueue(4) #先进后出队列 q1.put(5) q1.put(6) print(q1.get()) q2=queue.PriorityQueue(2) #优先级队列 q2.put((1,'a')) q2.put((-1,8)) q2.put((1,'g')) print(q2.get()) print(q2.get()) print(q2.get())
九、GIL锁
GIL锁是加在一个进程里面的,而且每个进程里面都有,GIL锁锁定内容是整个一条线程,实现的功能就是在同一进程同一时间只能允许一条线程使用CPU,当线程运行到IO时,切换到下一个线程,这其实是Cpython工作效率比较慢的一大原因,也是一大弊端,但我们基本上的应用场景都是IO密集型的,线程之间来回切换,也相当于实现线程的并发,所以还是Cpython还是够用的
十、线程池
现在我们重新学习一个模块concurrent.futures,在这个模块中提供了线程池和进程池,两个的用法也是一样的
concurrent.futures模块提供了高度封装的异步调用接口 ThreadPoolExecutor:线程池,提供异步调用 ProcessPoolExecutor: 进程池,提供异步调用 Both implement the same interface, which is defined by the abstract Executor class. #2 基本方法 #submit(fn, *args, **kwargs) 异步提交任务 #map(func, *iterables, timeout=None, chunksize=1) 取代for循环submit的操作 #shutdown(wait=True) 相当于进程池的pool.close()+pool.join()操作 wait=True,等待池内所有任务执行完毕回收完资源后才继续 wait=False,立即返回,并不会等待池内的任务执行完毕 但不管wait参数为何值,整个程序都会等到所有任务执行完毕 submit和map必须在shutdown之前 #result(timeout=None) 取得结果 #add_done_callback(fn) 回调函数
1,线程池和进程池
import time import os import threading from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor def func(n): time.sleep(2) print('%s打印的:'%(threading.get_ident()),n) return n*n tpool = ThreadPoolExecutor(max_workers=5) #默认一般起线程的数据不超过CPU个数*5 # tpool = ProcessPoolExecutor(max_workers=5) #进程池的使用只需要将上面的ThreadPoolExecutor改为ProcessPoolExecutor就行了,其他都不用改 #异步执行 t_lst = [] for i in range(5): t = tpool.submit(func,i) #提交执行函数,返回一个结果对象,i作为任务函数的参数 def submit(self, fn, *args, **kwargs): 可以传任意形式的参数 t_lst.append(t) # # print(t.result()) #这个返回的结果对象t,不能直接去拿结果,不然又变成串行了,可以理解为拿到一个号码,等所有线程的结果都出来之后,我们再去通过结果对象t获取结果 tpool.shutdown() #起到原来的close阻止新任务进来 + join的作用,等待所有的线程执行完毕 print('主线程') for ti in t_lst: print('>>>>',ti.result()) # 我们还可以不用shutdown(),用下面这种方式 # while 1: # for n,ti in enumerate(t_lst): # print('>>>>', ti.result(),n) # time.sleep(2) #每个两秒去去一次结果,哪个有结果了,就可以取出哪一个,想表达的意思就是说不用等到所有的结果都出来再去取,可以轮询着去取结果,因为你的任务需要执行的时间很长,那么你需要等很久才能拿到结果,
通过这样的方式可以将快速出来的结果先拿出来。如果有的结果对象里面还没有执行结果,那么你什么也取不到,这一点要注意,不是空的,是什么也取不到,那怎么判断我已经取出了哪一个的结果,可以通过枚举enumerate来搞,
记录你是哪一个位置的结果对象的结果已经被取过了,取过的就不再取了 #结果分析: 打印的结果是没有顺序的,因为到了func函数中的sleep的时候线程会切换,谁先打印就没准儿了,但是最后的我们通过结果对象取结果的时候拿到的是有序的,因为我们主线程进行for循环的时候,我们是按顺序将结果对象添加到列表中的。 # 37220打印的: 0 # 32292打印的: 4 # 33444打印的: 1 # 30068打印的: 2 # 29884打印的: 3 # 主线程 # >>>> 0 # >>>> 1 # >>>> 4 # >>>> 9 # >>>> 16
2,map的使用
from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor import threading import os,time,random def task(n): print('%s is runing' %threading.get_ident()) time.sleep(random.randint(1,3)) return n**2 if __name__ == '__main__': executor=ThreadPoolExecutor(max_workers=3) # for i in range(11): # future=executor.submit(task,i) s = executor.map(task,range(1,5)) #map取代了for+submit print([i for i in s])
3,回调函数的使用
import time import os import threading from concurrent.futures import ThreadPoolExecutor,ProcessPoolExecutor def func(n): time.sleep(2) return n*n def call_back(m): print('结果为:%s'%(m.result())) tpool = ThreadPoolExecutor(max_workers=5) t_lst = [] for i in range(5): t = tpool.submit(func,i).add_done_callback(call_back)