多线程爬取与存储基础
多线程
用不了多核!IO密集优势更大(比如下载文件啊...)
一般的python程序都是前台运行(主线程),即代表了顺序运行只有前面一个运行完毕后才能运行后面一个,但这样有时候会很浪费时间,比如下载两个数据第一个数据单独下载耗时t1而第二个单独下载耗时t2,时间是t1+t2,但是你将这个两个程序放入后台同时运行则时间时max(t1,t2),这似乎没什么但是数据一多优势就体现出来了
线程之间无序但是共享全局变量(所以会有互斥锁这种东西)
首先导入threading库 import threading xxx.threading.Thread(target=yyy,args=) 创造一个以yyy函数为后台运行的名字叫xxx的线程,args是yyy函数的传入参数 xxx.start()启动这个名字叫xxx的线程 xxx.join()堵塞这个线程:等这个线程执行完毕在进行下一个语句
lock=threading.Lock() lock.aquire()//上锁 //code lock.release()//解锁
多进程
可以用多核!计算密集优势更大
相比多线程开销大但是开发更稳定
进程是操作系统进行资源分配的基本单位,一个程序运行至少有一个进程,进程里面可以创造多个线程,线程是依附在进程里面的,没有进程就没有线程。
并且进程之间不共享全局变量
from multiprocessing import Pool p=Pool() p.apply_async(get_part_ts, args=(the_number,)) 不按顺序 添加|执行 进程 p.apply(...) 按顺序执行进程 p.close() 关闭不在接受新的进程 p.join()堵塞进程
from multiprocessing import Process //这个也可以 a=Process(name=,target=)//name可以指定改进程的name,target需要传入func a.start() a.join() a.terminate()//强行终止进程
不过window和Linux|mac的不同,他运行的时候会拷贝一遍主进程的程序,如果不加if __name__=="__main__": 会导致无限递归并报错
子进程的执行是无序的操作系统来决定顺序
常见的存储与读取
先介绍os库的两个函数
os.path.exsist(path): 判断path路径是否存在返回bool值
xxx=os.getcwd(): 获得当前工作目录的绝对地址
写入文本(字符串)的代码|脚本
import threading import os def write_file(path,data): ''' :param path: 要写入文件的路径 :param data:要写入文件的数据 :return: ''' f = open(path, 'wb') f.write(data.encode('utf-8')) f.close() print('文件成功写入') def get_path(name): ''' :param name:输入文件名称 :return:输出该文件的绝对路径 ''' os_path = os.getcwd() # 获得当前文件夹的路径 file_name = name+ '.txt' # 输入新建文件的名称 return os_path + '\\' + file_name # 得到绝对地址 def construct_file(name,data): ''' 只用这个函数的话没有覆盖文件功能 输入文件名称 :param name: :return: ''' path=get_path(name) if not os.path.exists(path): write_file(path,data) else: print('文件名称已存在') print('是否覆盖文件Y|N') if input()=='Y': print('成功覆盖文件') write_file(path,data) return 0 else: print('请重新输入文件名...') return 1 return 0 def write_dataintofile(data): ''' :param data:将data写入文件 :return:无返回值 ''' print('请输入文件名...') while construct_file(input(),data) : pass
一些我永远记不住的open,write操作的参数
“rt” 只读打开一个文本文件,只允许读数据
“wt” 只写打开或建立一个文本文件,只允许写数据
“at” 追加打开一个文本文件,并在文件末尾写数据
“rb” 只读打开一个二进制文件,只允许读数据
“wb” 只写打开或建立一个二进制文件,只允许写数据
“ab” 追加打开一个二进制文件,并在文件末尾写数据
“rt+” 读写打开一个文本文件,允许读和写
“wt+” 读写打开或建立一个文本文件,允许读写
“at+” 读写打开一个文本文件,允许读,或在文件末追加数据
“rb+” 读写打开一个二进制文件,允许读和写
“wb+” 读写打开或建立一个二进制文件,允许读和写
“ab+” 读写打开一个二进制文件,允许读,或在文件末追加数据
图片的读取,下载:
from bs4 import BeautifulSoup import urllib.request from bs4 import UnicodeDammit if __name__=='__main__': url='https://misaka.design.blog/' user_agent={'user_agent':"Mozilla/5.0 (Windows NT 6.1; WOW64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/39.0.2171.71 Safari/537.36"} req=urllib.request.Request(url,headers=user_agent) res=urllib.request.urlopen(url) doc=res.read() dammit=UnicodeDammit(doc,["utf-8","gbk"]) doc=dammit.unicode_markup soup=BeautifulSoup(doc,"html.parser") data=soup.select("a[class='post-thumbnail'] img") #获得图片的url地址 img=urllib.request.urlopen(data[0]['src']) imga=img.read()#读取地址里面的 某进制 数据 print(imga) with open(r'imag1.jpg','wb') as f:#创建一个jpg文件 f.write(imga) #以二进制写入图片文件的话就是下载图片