python 爬虫模板
前言
在我们写爬虫的时候,一般想要的数据都在详情页里面,一般代码进入详情页参数,需要首页里面寻找,所以爬这样的网站,需要定义一个模板
我的模板如下:
import random import time import requests from auction import logtool from auction.BaseCrawler import BaseCrawler class Wk(BaseCrawler): def __init__(self): super().__init__() self.headers = {} #公用的 self.session = requests.Session() self.session.headers.update(self.headers) def data_list(self, *args, **kwargs): #请求首页数据 pass def data_details(self, *args, **kwargs): # 请求详情页 pass def get_total_page(self, *args, **kwargs): pass def parse_data_list(self, *args, **kwargs): # 解析详情页需要的数据 pass def parse_data_details(self, *args, **kwargs): # 解析详情页 pass def action(self, *args, **kwargs): maxpage = 1 # 页数 logtool.info("开始爬取") logtool.info("进入网页") urls = '' # 详情页接口 # 翻页 for i in range(maxpage): # 请求列表页 json_datas = self.data_list(page=i) datas = self.parse_data_list(json_datas=json_datas) for _, data in enumerate(datas): json_datas = self.data_details(url=urls) details_data = self.parse_data_details(json_datas=json_datas) print(f"第{i + 1}页,第{_ + 1}条完成!!!") if __name__ == '__main__': wk = Wk() wk.action()
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?