摘要: 采用单线程+多协程的方式爬取 import asyncio import json import re import aiofiles import requests from letter import Letter from bs4 import BeautifulSoup import os 阅读全文
posted @ 2023-08-04 22:23 突破铁皮 阅读(14) 评论(0) 推荐(0) 编辑
摘要: 我采用创建了Letter类用来储存信件,重写了LetterFilePipeline使得爬取保存的文件名为信件Id,采用了多线程爬取,最后保存到letters目录下 Letter package org.example.crawler_letter; import lombok.AllArgsCons 阅读全文
posted @ 2023-08-04 22:14 突破铁皮 阅读(8) 评论(0) 推荐(0) 编辑