Python 图片并行下载
需求:有大量图片的url需要将其快速下载到本地
技术点:采用编写并发代码的库asyncio以及基于asyncio实现的HTTP框架aiohttp
pip install asyncio
pip install aiohttp
代码如下:
import json
import os
import requests
import aiohttp
import asyncio
image_save_dir = "images" # 要将下载的图片保存到的本地文件夹路径
image_url_list = [] # 要下载的image url元素组成的列表
cnt = 0 # 已下载到本地指定位置的图片数量
n_miss = 0 # 下载失败的图片数量
async def download_image(session, url):
global cnt
global n_miss
file_name = os.path.basename(url)
# 保存图片到指定位置
file_path = os.path.join(image_save_dir, file_name)
if not os.path.exists(file_path):
try:
async with session.get(url) as response:
if response.status == 200:
# 获取文件名
with open(file_path, 'wb') as file:
file.write(await response.read())
cnt += 1
if cnt % 100 == 0:
print("已下载{}/{}".format(cnt,len(image_url_list)))
else:
n_miss += 1
print(f'下载失败,状态码:{response.status}, 链接:{url}')
except Exception as e:
n_miss += 1
print(f'下载失败,链接:{url}, 错误:{str(e)}')
else:
cnt += 1
if cnt % 100 == 0:
print("已下载{}/{}".format(cnt,len(image_url_list)))
print("下载失败: ",n_miss)
async def main():
async with aiohttp.ClientSession() as session:
tasks = [download_image(session, url) for url in image_url_list]
await asyncio.gather(*tasks)
print("总图片数量: {}".format(len(image_url_list)))
print("下载成功: {}".format(cnt))
print("下载失败:{}".format(n_miss))
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
09.27更新:上述代码在图片量较大的情况下需要反复运行才能全部下下来,以下提供修正版的程序模版,一次运行即可:
import json
import os
import requests
import aiohttp
import asyncio
image_url_list = [] # 要下载的image url元素组成的列表
image_save_dir = "images" # 自定义图片保存的本地文件夹路径
cnt = 0 # 已下载到本地指定位置的图片数量
n_miss = 0 # 下载失败的图片数量
flag = 0 # 标记本次并发是否出现下载失败的情况
async def download_image(session, url):
global cnt
global n_miss
global flag
file_name = os.path.basename(url)
# 保存图片到指定位置
file_path = os.path.join(image_save_dir, file_name)
if not os.path.exists(file_path):
try:
async with session.get(url) as response:
if response.status == 200:
# 获取文件名
with open(file_path, 'wb') as file:
file.write(await response.read())
cnt += 1
if cnt % 100 == 0:
print("已下载{}/{}".format(cnt,len(image_url_list)))
else:
n_miss += 1
flag = 1
return False
except Exception as e:
n_miss += 1
flag = 1
return False
else:
cnt += 1
if cnt % 100 == 0:
print("已下载{}/{}".format(cnt,len(image_url_list)))
print("下载失败: ",n_miss)
async def main():
global flag
global n_miss
global cnt
while True:
flag = 0
n_miss = 0
cnt = 0
async with aiohttp.ClientSession() as session:
tasks = [download_image(session, url) for url in image_url_list]
await asyncio.gather(*tasks)
print("总图片数量: {}".format(len(image_url_list)))
print("下载成功: {}".format(cnt))
print("下载失败:{}".format(n_miss))
if flag == 0:
break
loop = asyncio.get_event_loop()
loop.run_until_complete(main())
采用上述代码进行并行下载,速度比传统的串行下载提升了好几个数量级(实验了下载20w张图片也很快),但是要注意(1)可能的网络原因导致的后续图片下载失败(在网络连接可以的情况下多运行几次代码即可)以及(2)可能的由于并行等待时间不足等原因导致的图片下载不全(即下载到本地之后,图片有损无法打开),此时,建议再用以下代码进行检查并串行下载完之前下载后有损的图片:
import json
import os
from PIL import Image
import requests
# 一、检查图片下载情况
image_path_list = [] # 需要检查的图片路径组成的列表
err_imgs = [] # 下载到本地但是无法打开的图片名称组成的列表
n_miss = 0 # 没下载到本地的图片数量
n_err = 0 # 下载到本地但是无法打开的图片数量
for i in range(len(image_path_list)):
image_path = image_path_list[i]
try:
image = Image.open(image_path)
except:
err_imgs.append(os.path.basename(image_path))
n_err += 1
# print(image_path)
if not os.path.exists(image_path):
n_miss += 1
print("没下载到本地的图片数量: ", n_miss)
print("下载到本地但是无法打开的图片数量: ", n_err)
err_imgs = list(set(err_imgs))
print(err_imgs)
# 二、如果有下载到本地但是图片有损打不开的情况,进行串行下载
if n_err > 0:
image_url_list = [] # 待串行下载的图片url列表
image_save_dir = "save_dir" # 待下载到本地保存的图片文件夹路径
if not os.path.exists(image_save_dir):
os.mkdir(image_save_dir)
print(image_save_dir + ' maked')
for image_url in image_url_list:
response = requests.get(image_url)
# 检查响应状态码,确保请求成功
if response.status_code == 200:
# 获取图像数据
image_data = response.content
# 本地保存图像
with open(os.path.join(image_save_dir, os.path.basename(image_url)), 'wb') as file:
file.write(image_data)
print(os.path.join(image_save_dir, os.path.basename(image_url)))
else:
print("下载失败,HTTP响应状态码:", response.status_code)
欢迎在评论区给出宝贵意见,交流学习