并发编程一

并发编程

操作系统的作用

  • 接口: 提供良好的接口,供用户自己使用,而调用硬件部分则直接交给操作系统
  • 硬件:管理硬件资源

多道技术

  • 针对单核,实现多道技术,现在计算机一般为多核,但是每个核内还是在应用多道技术
  • 时间上的复用:复用一个cpu的时间片,即占用cpu时间过长或者遇到i/o
  • 空间上的复用:如内存中同时有多个程序,多个进程之间要实现物理隔离

进程

概念:正在进行的一个任务;程序只是代码,而进程是指程序的运行状态,一个程序执行两次,也是两个进程

# 进程是计算机中最小的资源分配单位(进程是负责圈资源)
# 线程是计算机中能被CPU调度的最小单位 (线程是负责执行具体代码的)
# 线程 后面的爬虫阶段经常用;进程:数据分析或者是高计算的程序;协程:异步的框架 异步的爬虫模块
  • 并发:即看起来时同时运行,cpu同时在多个程序之间切换,单个cpu+多道技术实行并发(并行属于并发)
  • 并行:同时运行,多个程序同时占用多个cpu执行任务,只有多个cpu才能实现
image-20200824145148965
  • 阻塞和非阻塞:程序的运行状态;阻塞,是指调用结果返回之前,指当前线程会被挂起;非阻塞,指不能立即得到结果也会立即返回,同时该函数不会阻塞当前线程

  • 阻塞
    # cpu不工作
    非阻塞
    # cpu工作
    
  • 同步 异步:程序的调用方式;同步就是在发出一个功能调用时,在没有得到结果之前,该调用不会返回;异步:调用对象时,调用者不能立即得到结果,只有异步完成后才能得到结果

  • 同步
    # 正在烧水
    # 停下烧水这个动作   吹头发
    # 吹完头发之后继续烧水
    异步
    #  正在烧水
    #  吹头发 烧水也在继续
    
  • 进程三状态image-20200824151121278

multiprocessing

# p.start():启动进程,并调用该子进程中的p.run() 
# p.run():进程启动时运行的方法,正是它去调用target指定的函数,我们自定义类的类中一定要实现该方法  
p.terminate():强制终止进程p,不会进行任何清理操作,如果p创建了子进程,该子进程就成了僵尸进程,使用该方法需要特别小心这种情况。如果p还保存了一个锁那么也将不会被释放,进而导致死锁
p.is_alive():如果p仍然运行,返回True
# p.join([timeout]):主线程等待p终止(强调:是主线程处于等的状态,而p是处于运行的状态)。timeout是可选的超时时间,需要强调的是,p.join只能join住start开启的进程,而不能join住run开启的进程  
    
p.daemon:默认值为False,如果设为True,代表p为后台运行的守护进程,当p的父进程终止时,p也随之终止,并且设定为True后,p不能创建自己的新进程,必须在p.start()之前设置
p.name:进程的名称
# p.pid:进程的pid
p.exitcode:进程在运行时为None、如果为–N,表示被信号N结束(了解即可)
p.authkey:进程的身份验证键,默认是由os.urandom()随机生成的32字符的字符串。这个键的用途是为涉及网络连接的底层进程间通信提供安全性,这类连接只有在具有相同的身份验证键时才能成功(了解即可)
  • multiprocessing里Process的应用  开启子进程两种方式
    from multiprocessing import Process
    # import time
    # def task(n):
    #     print('我是子进程')
    #     time.sleep(n)
    #     print('子进程结束')
    # if __name__ == '__main__':
    #     # args=(), kwargs={}
    #     # t=Process(task,args=(1,))
    #     t = Process(target=task, kwargs={'n': 1})
    #     t.start()  # 通知操作系统,开启进程,执行task函数
    #     print('主')
    
    # 第二种:
    # from multiprocessing import Process
    # import time
    # class Task(Process):
    #     def __init__(self, n):
    #         super().__init__()            # 一定要继承以前父类的__init__方法
    #         self.n = n
    #     def run(self):
    #         print('我是子进程')
    #         time.sleep(self.n)
    #         print('子进程结束')
    # if __name__ == '__main__':
    #     t = Task(1)
    #     # t.run(1)           # 不是调用t.run(),而是调用t.start()
    #     t.start()
    #     print('主')
    
    
    在进程中的典型同步和异步的例子
    p.start() 开启进程      异步非阻塞
    p.terminate() 结束进程  异步非阻塞
    p.join()     同步阻塞
    
    
    
  • # join的使用
    # from multiprocessing import Process
    # import time
    # def task(n):
    #     print('我是子进程')
    #     time.sleep(n)
    #     print('子进程结束')
    # if __name__ == '__main__':
    #     ctime = time.time()
    #     t = Process(target=task, kwargs={'n': 1})
    #     t2 = Process(target=task, kwargs={'n': 2})
    #     t.start()
    #     t2.start()
    #     t.join()        # 等待t子进程执行完成
    #     t2.join()       # 等待t2子进程执行完成
    #     print('主')
    #     ctime2 = time.time()
    #     print(ctime2 - ctime)
    
    # 进程之间数据隔离       主程序 和进程之间数据隔离,可以用global全局变量来验证
    # from multiprocessing import Process
    # import time
    # age = 18
    # def task(n):
    #     global age  # 局部修改全局
    #     age = 99
    #     print('我是子进程')
    #     time.sleep(n)
    #     print('子进程结束')
    #     print(age)
    # if __name__ == '__main__':
    #     t = Process(target=task, kwargs={'n': 1})
    #     t.start()
    #     t.join()        #  主进程等待t子进程执行完成   明确一点,join是相对于主进程来说的
    #     print('主')
    #     print(age)       # 数据没有变,主进程中打印age和子进程的age没有半毛钱关系,数据是隔离的
    

僵尸进程和孤儿进程

  • 僵尸进程:有害,一个进程使用fork ( linux 中) 创建子进程,如果子进程退出,而父进程并没有调用wait或waitpid获取子进程的状态信息,那么子进程的进程描述符仍然保存在系统中。这种进程称之为僵死进程,如果父进程是一个死循环,永远不会结束,那么该僵尸进程就会一直存在,僵尸进程过多,就是有害的

  • 孤儿进程:无害, 一个父进程退出,而它的一个或多个子进程还在运行,那么那些子进程将成为孤儿进程。孤儿进程将被init进程(进程号为1)所收养,并由init进程对它们完成状态收集工作。孤儿进程是没有父进程的进程,孤儿进程这个重任就落到了init进程身上,由init进程进行回收

守护进程

  • 创建守护进程:1. 守护进程会在主进程代码执行结束后就终止 2.守护进程内无法再开启子进程,否则抛出异常:注意:进程之间是互相独立的,主进程代码运行结束,守护进程随即终止

    from multiprocessing import Process
    import time
    import random
    class Piao(Process):
        def __init__(self,name):
            self.name=name
            super().__init__()
        def run(self):
            print('%s is piaoing' %self.name)
            time.sleep(random.randrange(1,3))
            print('%s is piao end' %self.name)
    p=Piao('egon')
    p.daemon=True #一定要在p.start()前设置,设置p为守护进程,禁止p创建子进程,并且父进程代码执行结束,p即终止运行
    p.start()
    print('主')
    

进程同步(锁)

  • 进程之间数据不共享,但是共享同一套文件系统,所以访问同一个文件,或同一个打印终端,是没有问题的,

    而共享带来的是竞争,竞争带来的结果就是错乱,如何控制,就是加锁处理

    #由并发变成了串行,牺牲了运行效率,但避免了竞争
    from multiprocessing import Process,Lock   # Lock
    import os,time
    def work(lock):
        lock.acquire()      # 上锁
        print('%s is running' %os.getpid())
        time.sleep(2)
        print('%s is done' %os.getpid())
        lock.release()      # 解锁
    if __name__ == '__main__':
        lock=Lock()
        for i in range(3):
            p=Process(target=work,args=(lock,))
            p.start()
    
    模拟抢票   #文件db的内容为:{"count":1}   注意一定要用双引号,不然json无法识别
    from multiprocessing import Process,Lock
    import time,json,random
    def search():
        dic=json.load(open('db.txt'))
        print('\033[43m剩余票数%s\033[0m' %dic['count'])
        
    def get():
        dic=json.load(open('db.txt'))
        time.sleep(0.1) #模拟读数据的网络延迟
        if dic['count'] >0:
            dic['count']-=1
            time.sleep(0.2) #模拟写数据的网络延迟
            json.dump(dic,open('db.txt','w'))
            print('\033[43m购票成功\033[0m')
    
    def task(lock):
        search()
        lock.acquire()
        get()
        lock.release()
    if __name__ == '__main__':
        lock=Lock()
        for i in range(100): #模拟并发100个客户端抢票
            p=Process(target=task,args=(lock,))
            p.start()
    
  • 加锁可以保证多个进程修改同一块数据时,同一时间只能有一个任务可以进行修改,即串行的修改,没错,速度是慢了,但牺牲了速度却保证了数据安全。
    虽然可以用文件共享数据实现进程间通信,但问题是:
    1.效率低(共享数据基于文件,而文件是硬盘上的数据)
    2.需要自己加锁处理
    
    #因此我们最好找寻一种解决方案能够兼顾:1、效率高(多个进程共享一块内存的数据)2、帮我们处理好锁问题。这就是mutiprocessing模块为我们提供的基于消息的IPC通信机制:队列和管道。
    1 队列和管道都是将数据存放于内存中
    2 队列又是基于(管道+锁)实现的,可以让我们从复杂的锁问题中解脱出来,
    我们应该尽量避免使用共享数据,尽可能使用消息传递和队列,避免处理复杂的同步和锁问
    

管道

程彼此之间互相隔离,要实现进程间通信(IPC),multiprocessing模块支持两种形式:队列和管道,这两种方式都是使用消息传递的

  • 第三方工具(软件)提供给我们的IPC机制redis,memcache,kafka,rabbitmq
    

 创建队列的类(底层就是以管道和锁定的方式实现):以后的分布式架构和消息队列都是基于此演变而来

# Queue([maxsize]):创建共享的进程队列,Queue是多进程安全的队列,可以使用Queue实现多进程之间的数据传递。 maxsize是队列中允许最大项数,若有值,则只能放固定多个值,省略则无大小限制
# q.put方法用以插入数据到队列中,put方法还有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,该方法会阻塞timeout指定的时间,直到该队列有剩余的空间。如果超时,会抛出Queue.Full异常。如果blocked为False,但该Queue已满,会立即抛出Queue.Full异常。
# q.get方法可以从队列读取并且删除一个元素。同样,get方法有两个可选参数:blocked和timeout。如果blocked为True(默认值),并且timeout为正值,那么在等待时间内没有取到任何元素,会抛出Queue.Empty异常。如果blocked为False,有两种情况存在,如果Queue有一个值可用,则立即返回该值,否则,如果队列为空,则立即抛出Queue.Empty异常. 
q.get_nowait():同q.get(False)  # 取值不等待
q.put_nowait():同q.put(False)  # 放值不等待
7 q.empty():调用此方法时q为空则返回True,该结果不可靠,比如在返回True的过程中,如果队列中又加入了项目。
8 q.full():调用此方法时q已满则返回True,该结果不可靠,比如在返回True的过程中,如果队列中的项目被取走。
9 q.qsize():返回队列中目前项目的正确数量,结果也不可靠,理由同q.empty()和q.full()一样
from multiprocessing import Queue   队列  先进先出
# 实例化得到要给对象
q=Queue(5)  # 默认很大,可以放很多,写了个5,只能放5个
# 往管道中放值
q.put(1)
q.put('lqz')
q.put(18)
q.put(19)
# q.put(20)
# q.put(21)
# q.put_nowait(100)

# 从管道中取值
# print(q.get())
# print(q.get())
# print(q.get())
# print(q.get(timeout=100))  # 等0.1s还没有值,就结束
# print(q.get_nowait())        # 不等了,有就是有,没有就没有
print(q.empty())  # 看一下队列是不是空的
print(q.full())   # 看一下队列是不是满的

'''
q=Queue(队列大小)
# 放值
q.put(asdf)
q.put_nowait(asdf)  # 队列满了,放不进去就不放了,报错
# 取值
q.get()  # 从队列头部取出一个值
q.get_nowait()   # 从队列头部取值,没有就抛错
# 队列是否为空,是否满
print(q.empty())  # 看一下队列是不是空的
print(q.full())   # 看一下队列是不是满的

其他方法(了解):

1 q.cancel_join_thread():不会在进程退出时自动连接后台线程。可以防止join_thread()方法阻塞
2 q.close():关闭队列,防止队列中加入更多数据。调用此方法,后台线程将继续写入那些已经入队列但尚未写入的数据,但将在此方法完成时马上关闭。如果q被垃圾收集,将调用此方法。关闭队列不会在队列使用者中产生任何类型的数据结束信号或异常。例如,如果某个使用者正在被阻塞在get()操作上,关闭生产者中的队列不会导致get()方法返回错误。
3 q.join_thread():连接队列的后台线程。此方法用于在调用q.close()方法之后,等待所有队列项被消耗。默认情况下,此方法由不是q的原始创

tasklist 查看进程id号 tasklist | findstr 进程id号 os.getpid()

mac ps aux|grep 进程号

posted @ 2020-08-25 16:50  feiguoguobokeyuan  阅读(91)  评论(0编辑  收藏  举报