import requests
import os
import re
if __name__ == '__main__':
# 创建一个文件夹,保存所有的图片
if not os.path.exists("./pictureS"):
os.mkdir("./pictureS")
# 解析图片的url %d表示一个变量 解析第几页中的所有图片
url = 'https://www.tooopen.com/img_%d'
#pageNum = 1
headers = {
'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
}
for pageNum in range(1,3):
new_url = format(url%pageNum)
# 使用爬虫对url对应的一整张页面进行爬取
page_text = requests.get(url=new_url,headers=headers).text
#print(page_text)
# 使用聚焦爬虫将页面中所有的图片进行解析/提取
ex= r'<img src="(https://[^"]+)"'
img_src_list = re.findall(ex, page_text, re.S)
#print(img_src_list)
for src in img_src_list:
#拼接出完整的url
img_data = requests.get(url=src, headers=headers).content
img_name = src.split("/")[-1]
imgPath = './pictureS/' + img_name
with open(imgPath,'wb') as fp:
fp.write(img_data)
print(img_name,'下载成功')