《Python》进程收尾线程初识

一、数据共享

  from multiprocessing import Manager

  把所有实现了数据共享的比较便捷的类都重新又封装了一遍,并且在原有的multiprocessing基础上增加了新的机制list、dict

  机制:支持的数据类型非常有限

    list、dict都不是数据安全的,需要自己加锁来保证数据安全

from multiprocessing import Manager,Process,Lock

def work(d,lock):
    with lock:
        d['count'] -= 1

if __name__ == '__main__':
    lock = Lock()
    with Manager() as m:   # m = Manager()
        dic = m.dict({'count':100})
        p_lst = []
        for i in range(10):
            p = Process(target=work, args=(dic, lock))
            p_lst.append(p)
            p.start()
        for p in p_lst:
            p.join()
        print(dic)
#{'count': 90}
with ......
    一大段语句
dis模块
python的上下文管理
在执行一大段语句之前,自动做某个操作  open
在执行一大段语句之后,自动做某个操作  close

面向对象的魔术方法(双下杠杠方法)

 

# 回调函数 in Pool

import os
from multiprocessing import Pool

def func(i):
    print('第一个任务', os.getpid())
    return '*'*i

def call_back(res):   #回调函数
    print('回调函数:', os.getpid())
    print('res--->', res)

if __name__ == '__main__':
    p = Pool()
    print('主进程', os.getpid())
    p.apply_async(func, args=(1,), callback=call_back)
    p.close()
  p.join()
 

  func执行完毕之后执行callback函数

  func的返回值会作为callback的参数

  回调函数是在主进程中实现的

  应用场景:子进程有大量运算要做,回调函数等待结果做简单处理

import re
from urllib.request import urlopen
from multiprocessing import Pool

url_lst = [
    'http://www.baidu.com',
    'http://www.sohu.com',
    'http://www.sogou.com',
    'http://www.4399.com',
    'http://www.cnblogs.com',
]

def get_url(url):
    response = urlopen(url)
    ret = re.search('www\.(.*?)\.com', url)
    print('%s finished' % ret.group(1))
    return ret.group(1),response.read()

def call(content):
    url,con = content
    with open(url+'.html', 'wb')as f:
        f.write(con)
if __name__ == '__main__':
    p = Pool()
    for url in url_lst:
        p.apply_async(get_url,args=(url,),callback=call)
    p.close()
    p.join()
子进程去访问网页子进程去处理网页的结果

二、线程理论基础

  进程是计算机中最小的资源分配单位,进程对于操作系统来说还具有一定的负担

  创建一个进程,操作系统分配的资源大约有:代码,数据,文件等

1、为什么要有线程

  线程是轻量级的概念,他没有属于自己的进程资源,一条线程只负责执行代码,没有自己独立的代码、数据以及文件

  线程是计算机中能被CPU调用的最小的单位,当前大部分计算机中的CPU都是执行的线程中的代码

  线程与进程之间的关系:每一个进程中都至少有一条线程在工作

线程的特点:

  同一个进程中的所有线程的资源是共享的

  轻量级, 没有自己的资源

进程与线程之间的区别:    

  占用的资源、调度的效率、资源是否共享

线程的并行问题:

  线程可以并行:java、c++,c#等

  在cpython中,一个进程中的多个线程是不可以并行的

  原因是:Cpython解释器内部有一把全局解释器锁GIL,所以线程不能充分利用多核,同一时刻同一进程中的线程只有一个能被cpu执行

  GIL锁确实是限制了你程序的效率,但目前可以帮助你提高线程之间切换的效率

  如果是想写高计算型的就要多进程或者换一个解释器

2、threading 模块

# 并发

import os
from threading import Thread

def func(i):
    print('子线程:', i, os.getpid())

print('主线程', os.getpid())
for i in range(10):
    t = Thread(target=func, args=(i,))
    t.start()
# 进程和线程的差距

import os
import time
from threading import Thread
from multiprocessing import Process


def func(i):
    print('子:', os.getpid())

if __name__ == '__main__':
    start = time.time()
    t_lst = []
    for i in range(100):
        t = Thread(target=func, args=(i,))
        t.start()
        t_lst.append(t)
    for t in t_lst:
        t.join()
    end = time.time()-start

    start = time.time()
    t_lst = []
    for i in range(100):
        p = Process(target=func, args=(i,))
        p.start()
        t_lst.append(p)
    for p in t_lst:
        p.join()
    end2 = time.time()-start
    print(end, end2)
#0.0279843807220459 13.582834720611572
# 线程间的数据共享

from threading import Thread

num = 100
def func():
    global num
    num -= 1            #每个线程都-1

t_lst = []
for i in range(100):
    t = Thread(target=func)   #创建一百个线程
    t.start()
    t_lst.append(t)
for t in t_lst:
    t.join()
print(num)   #0 

Thread 类的其他用法

Thread实例对象的方法
  # isAlive(): 返回线程是否活动的。
  # getName(): 返回线程名。
  # setName(): 设置线程名。

threading模块提供的一些方法:
  # threading.currentThread(): 返回当前的线程变量。
  # threading.enumerate(): 返回一个包含正在运行的线程的list。正在运行指线程启动后、结束前,不包括启动前和终止后的线程。
  # threading.activeCount(): 返回正在运行的线程数量,与len(threading.enumerate())有相同的结果。
from threading import currentThread,Thread
def func():
    time.sleep(2)

t = Thread(target=func)
t.start()
print(t.is_alive())    #True(判断线程是否活着)
print(t.getName())  #Tread-1
t.setName('tt')
print(t.getName())   #tt(改名字)

def func():
    print('子线程:', currentThread().ident)
    time.sleep(2)
print('主线程:',currentThread().ident)
t = Thread(target=func)
t.start()
#currentThread().ident返回线程的pid

from threading import enumerate
def func():
    print('子进程:', currentThread().ident)
    time.sleep(2)

print('主进程:', currentThread().ident)
for i in range(10):
    t = Thread(target=func)
    t.start()
print(len(enumerate()))
#enumerate()返回一个包含正在运行的线程的list,len(list)

from threading import activeCount
def func():
    print('子线程:', currentThread().ident)
    time.sleep(2)

print('主线程:', currentThread().ident)
for i in range(10):
    t = Thread(target=func)
    t.start()
print(activeCount())
#activeCount()返回正在运行的线程数量,与len(threading.enumerate())有相同的结果

3、守护线程

import time
from threading import Thread

def func():
    while True:
        time.sleep(1)
        print(123)

def func2():
    print('func2 start')
    time.sleep(3)
    print('func2 end')

t1 = Thread(target=func)
t2 = Thread(target=func2)
t1.setDaemon(True)
t1.start()
t2.start()
print('主线程代码结束')
# func2 start
#主线程代码结束
#123
#123
#func2 end

 

  守护线程 是在主线程代码结束之后,再等待子线程执行结束后才结束

  主线程结束  就意味着主进程结束

  主线程等待所有的线程结束

  主线程结束了以后  守护线程会随着主进程的结束而随之结束  不是随着代码的结束而结束

  

#################################################################################

线程
线程和进程之间的关系
每个进程内都有一个线程
线程是不能独立存在的
线程和进程之间的区别
同一个进程中线程之间的数据是共享的
进程之间的数据是隔离的
线程是被cpu执行的最小单位
操作系统调度
进程是计算机中最小的资源分配单位
python
GIL锁 全局解释器锁 全局锁
cpython解释器中的
锁线程 :同一时刻同一个进程只会有一个线程访问CPU
锁的是线程而不是数据
当程序是高IO型的 多线程
当程序是高计算(CPU)型的 多进程
cpu*1 ~ cpu*2

threading
Thread
守护线程 :主线程结束之后才结束

socket_server IO多路复用 + 多线程
框架 并发的效果 :多线程、协程的概念 flask
爬虫 :线程池 协程

set、dict、list
生成器
面向对象的进阶 :魔术方法
管道
socket_server的源码

 

 

 

 

 

posted @ 2020-04-27 20:44  zyling_me  阅读(181)  评论(0编辑  收藏  举报