微信公众号图片抓取

公告

View Post

# coding=utf-8
import re
import requests

def spider(paperurl, picpat):
    headers = {
        "User-Agent": "Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/54.0.2840.99 Safari/537.36"}

    response = requests.get(paperurl, headers=headers).text

    pattern = re.compile(picpat)

    data = pattern.findall(response)

    for i in range(0, len(data)):
        picurl = data[i]
        print(picurl)
        write(picurl, i)


def write(picurl, i):
    data = requests.get(picurl).content
    #with open("e:\jpeg\\{}.jpeg".format(i), "wb") as f:
    with open("e:\jpeg\\{}.jpg".format(i), "wb") as f:
        f.write(data)


if __name__ == '__main__':
    paperurl = r"https://mp.weixin.qq.com/s/7huJOS7G4HEZYx1FtOTxIw"
    picpat = r'<img data-ratio="[\s\S]*?" data-src="(.*?)" data-type="jpeg" data-w="[\s\S]*?"'
    #paperurl = r"https://mp.weixin.qq.com/s/8VeDZztRqTP6PeopKv7BjQ"
    #picpat = r'<img data-ratio="[\s\S]*?" data-src="(.*?)" data-type="jpeg" data-w="[\s\S]*?"'
    spider(paperurl, picpat)

posted on 2021-03-06 18:57 gisai 阅读(273) 评论(0) 收藏举报

刷新页面返回顶部

gisoracle

公告

View Post

微信公众号图片抓取