Python项目实践--当当和豆瓣图书爬虫
图书访问接口:
接口地址:
http://api.xiaomafeixiang.com/api/bookinfo?isbn=9787544270878
把isbn替换为实际需要查询图书的isbn编号即可。
一、爬虫架构Scrapy
选用的爬虫框架是Scrapy,具体学习文档可参考:
官方文档:https://scrapy.org/
二、Scrapy爬取动态内容
网页解析部分,如果是静态网页可以直接对返回的数据进行解析。
针对动态网页,最终选用的方案是Selenium Chrome方案。分析过程见以下文档:
Scrapy爬取动态内容(二)Selenium Chrome方案
Scrapy爬取动态内容(三)Selenium Firefox方案
Scrapy爬取动态内容(四)Selenium-Server方案
三、环境部署
Python项目实践--环境准备03 Scrapy + Selenium Chrome工作环境
四、工程结构简介
1、spiders部分
这里主要分为三部分内容:
(1) 抓取各大免费代理,从实际效果来看,可用的合法代理还是比较少的。
(2) 当当图书抓取。
(3) 豆瓣图书抓取。
2、中间件
中间件部分针对抓取图书和抓取代理、使用免费代理和付费代理做了区分。
3、管道和数据模型
4、selenium部分
五、代码讲解
(持续整理中)
分类:
Python项目实践
标签:
Scrapy
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具