python网络爬虫（二）

今天看了网络爬虫爬取图片的内容，主要是讲利用正则匹配爬图片。

所以就想着用学到的内容去试一下，我直接用这个方法去爬B站的图片。

（1）查找一下图片元素

最终，我们要给可匹配的正则，'<img src="(.*?)" alt=.*?>'。

（2）代码编写

import re

import requests
import json
import os
if not os.path.exists("./pic"):
    os.mkdir("./pic")
img_list=[]
url = 'https://search.bilibili.com/all?vt=06867697&keyword=%E7%BD%91%E7%BB%9C%E7%88%AC%E8%99%AB'
head = {'User-Agent':
            'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/108.0.0.0 Safari/537.36 Edg/108.0.1462.54'}  # 增加请求头，防反爬虫
data = {'type':'24',
        'interval_id':'100:90',
        'action':'',
        'start':'0',
        'limit':'20'
    }  # 带上from data的数据进行请求
ex='<img src="(.*?)" alt=.*?>'
for i in range(1,10):
    new_url=url+"page="+str(i)
    req = requests.get(url=new_url,headers=head).text
    img_list.append(re.findall(ex,req,re.S))
i=0
for img_vec in img_list:
    for img in img_vec:
        i=i+1
        img="https:"+img
        img_data=requests.get(url=img,headers=head).content
        imgPath="./pic/"+str(i)+".jpg"
        with open(imgPath,"wb") as fp:
            fp.write(img_data)
            print(img_data," loaded")

（3）结果展示

posted @ 2023-01-06 11:15 澳大利亚树袋熊阅读(46) 评论(0) 收藏举报

刷新页面返回顶部

澳大利亚树袋熊

python网络爬虫（二）

公告