正则解析

import requests
import os
import re
if __name__ == '__main__':
    # 创建一个文件夹,保存所有的图片
    if not os.path.exists("./pictureS"):
        os.mkdir("./pictureS")
    # 解析图片的url %d表示一个变量 解析第几页中的所有图片
    url =  'https://www.tooopen.com/img_%d'
    #pageNum = 1
    headers = {
        'User-Agent':'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/122.0.0.0 Safari/537.36'
    }
    for pageNum in range(1,3):
        new_url = format(url%pageNum)
        # 使用爬虫对url对应的一整张页面进行爬取
        page_text = requests.get(url=new_url,headers=headers).text
        #print(page_text)
        # 使用聚焦爬虫将页面中所有的图片进行解析/提取
        ex= r'<img src="(https://[^"]+)"'
        img_src_list = re.findall(ex, page_text, re.S)
        #print(img_src_list)
        for src in img_src_list:
            #拼接出完整的url
            img_data = requests.get(url=src, headers=headers).content
            img_name = src.split("/")[-1]
            imgPath = './pictureS/' + img_name
            with open(imgPath,'wb') as fp:
                fp.write(img_data)
            print(img_name,'下载成功')
posted @ 2024-02-24 01:39  会秃头的小白  阅读(6)  评论(0编辑  收藏  举报