10 2024 档案
工程化爬虫的写法
摘要:爬虫工程化是指将爬虫开发成一个稳定、可维护、可扩展的系统。这通常涉及到以下几个方面: 模块化设计:将爬虫分解为多个模块,例如数据抓取、数据解析、数据存储、错误处理等。 配置管理:使用配置文件来管理爬虫的参数,如目标URL、请求头、代理服务器等。 异常处理:合理处理网络请求异常、数据解析异常等。 日志
获取网页的markdown
摘要:# 获取网页源码 import re import html2text import requests def preprocess_html(html): # 删除没有 src 属性的 img 标签 processed_html = re.sub(r'<img(?![^>]*\ssrc=)[^>]