2023 年 8月 4 日随笔档案 - 突破铁皮

2023年8月4日

摘要：采用单线程+多协程的方式爬取 import asyncio import json import re import aiofiles import requests from letter import Letter from bs4 import BeautifulSoup import os 阅读全文

posted @ 2023-08-04 22:23 突破铁皮阅读(14) 评论(0) 推荐(0) 编辑

WebMagic爬取北京市政信件内容

摘要：我采用创建了Letter类用来储存信件，重写了LetterFilePipeline使得爬取保存的文件名为信件Id，采用了多线程爬取，最后保存到letters目录下 Letter package org.example.crawler_letter; import lombok.AllArgsCons 阅读全文

posted @ 2023-08-04 22:14 突破铁皮阅读(8) 评论(0) 推荐(0) 编辑

liyiyang

公告