随笔- 125 文章- 0 评论- 5 阅读- 53424

python 爬取原力文档日语学习资料

参考

https://blog.csdn.net/weixin_46184311/article/details/115291441

代码

import requests, json, re, time, urllib.request
import time
import wget


def getParameter(url):  # 获取文档参数
    text_response = requests.get(url=url, headers=headers).text
    actual_page = int(re.search('actual_page: (\d+), //真实页数', text_response).group(1))  # 页数
    aid = re.search('aid: (\d+), //解密后的id', text_response).group(1)  # aid
    view_token = re.search('view_token: \'(.*?)\'', text_response).group(1)  # view_token
    print('actual_page:', actual_page, '\naid:', aid, '\nview_token:', view_token)
    return actual_page, aid, view_token


def requests_data(parameter, page):  # 请求数据
    url = 'https://openapi.book118.com/getPreview.html'
    params = {
        'project_id': '1',
        'aid': parameter[1],
        'view_token': parameter[2],
        'page': page,
    }
    response = requests.get(url=url, headers=headers, params=params).text
    json_data = re.search('jsonpReturn\((.*?)\);', response).group(1)  # 使用正则表达式所需数据
    data = json.loads(json_data)['data']
    return data



if __name__ == '__main__':
    results = []
    headers = {
        'User-Agent': 'Mozilla/5.0 (Windows NT 10.0; Win64; x64) AppleWebKit/537.36 (KHTML, like Gecko) Chrome/83.0.4103.116 Safari/537.36'}
    text_url = 'https://max.book118.com/html/2023/0208/6230222112005044.shtm'
    parameter = getParameter(text_url)
    print(parameter)
    for page in range(1, parameter[0]+1, 6):
        print(page)
        result = requests_data(parameter, page)
        print(result)
        for id, url in result.items():
            url = 'https:'+url
            print(f'downloading: {id}, {url} ')
            wget.download(url=url, out=f'imgs/{id}.png')
        time.sleep(1)

posted @ 2023-06-18 21:01 裏表異体阅读(83) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

相关博文：

· python爬取淘宝商品信息

· 网易云爬取音乐

· 爬取某站的文档 - Python

· 爬取网页文本

· python爬取数据爬取图书信息

公告

昵称：裏表異体
园龄： 6年4个月
粉丝： 5
关注： 15

+加关注

2025年3月

日

一

二

三

四

五

六

裏表異体

Seeking for reality

python 爬取原力文档日语学习资料

参考

代码

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论