requests下载大文件,断点下载
前言
requests.get()请求一个视频连接链接,如果视频太大怎么办?
requests.get()下载到一半暂停了,想要接着下载怎么办?
REQUESTS如何友好地请求下载大文件?
当我们用requests.get()
请求某个链接时,如果是大文件,比如下载1GB大小的视频,那该怎么办呢?
在get()方法里面加一个参数stream=True
,即:requests.get(url,stream=True)
加 和 不加stream参数的区别:
不加stream参数:
get请求会把所有的数据请求下来,一个视频1个G的话,会把1G的视频下载到内存里面,然后再进一步操作。
加stream参数:
get请求会先建立连接,而不会把content内容或text内容下载到内存里,等开始对content操作的时候,get请求这个时候才开始下载数据。
通常还可以这样分一段一段写入:
import requests url = '' r = requests.get(url,stream=True) with open('filename', 'wb') as fp: for item in r.iter_content(10240): # 10240表示每次会写入10240个字节,即10KB fp.write(item)
download_res = sess.get(get_url, headers = get_header_info, stream=True) download_cont = b'' for item in download_res.iter_content(1024): # 10240表示每次会写入10240个字节,即10KB print(type(item)) print(item) download_cont+=item
这样就可以友好地下载大文件了,对于下载较大的视频尤其管用。
REQUESTS实现断点续传
在requests.get()的请求头headers加上Range字段就可以实现断点续传了。
语法格式如下:
headers = {'Range': 'bytes=%d-%d'%(start,end)}
在%d-%d的位置传入起始字节数 和 终止字节数。
例如:
# 从第0个字节下载到第500个字节(包括第500个字节)
headers = {'Range': 'bytes=0-500'}
# 从第501个字节下载到最后一个字节
headers = {'Range': 'bytes=501-'}
尝试用断点续传的方式下载一个图片试试:
找一个图片链接,该图片大小为185KB,即185*1024个字节
先下载前面100KB:
import requests
headers = {'Range': 'bytes=0-%d'%(100*1024)}
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1606242360113&di=6f1e59e7ad5cae73389a44f65c466242&imgtype=0&src=http%3A%2F%2Fb-ssl.duitang.com%2Fuploads%2Fitem%2F201505%2F03%2F20150503152411_JsYLR.jpeg'
r = requests.get(url,headers=headers)
with open('night.jpg', 'wb') as fp:
fp.write(r.content)
看看只下载了100KB的这张图片:
接着下载剩下的内容
headers = {'Range': 'bytes=%d-'%(100*1024+1)}
url = 'https://timgsa.baidu.com/timg?image&quality=80&size=b9999_10000&sec=1606242360113&di=6f1e59e7ad5cae73389a44f65c466242&imgtype=0&src=http%3A%2F%2Fb-ssl.duitang.com%2Fuploads%2Fitem%2F201505%2F03%2F20150503152411_JsYLR.jpeg'
r = requests.get(url,headers=headers)
with open('night.jpg', 'ab') as fp: # 注意用 'ab'模式打开文件
fp.write(r.content)
完整图片:
会不会觉得断点续传也就那样?
总结
- 友好地下载大文件:
requests.get(stream=True)
- 断点续传:在请求头headers上加入
{'Range': 'bytes=%d-%d'}
字段