摘要: BeautifulSoup4(简称bs4)和正则表达式都能处理文本,筛选数据,但它们各有优势和适用场景。在网络爬虫项目中,通常会结合两个工具适用,例如用bs4解析网页结构,然后使用正则表达式提取特定的文本内容。 bs4是用于解析html和xml文档的第3方库,它本身并不直接解析文档,而是依赖于其它解 阅读全文
posted @ 2024-09-26 19:02 松鼠q 阅读(5) 评论(0) 推荐(0) 编辑
摘要: 首先确认要爬取的信息所在网页是静态还是动态,打开浏览器开发者工具抓包,下拉页面更新体育新闻的摘要(summary),同时查看网络面板,筛选fetch/xhr发起的请求的响应,随着下拉动作,能发现对https://matchweb.sports.qq.com/feeds/list的请求的增加。爬取的目 阅读全文
posted @ 2024-09-26 13:11 松鼠q 阅读(3) 评论(0) 推荐(0) 编辑