Python项目实践--当当和豆瓣图书爬虫

接口地址：

把isbn替换为实际需要查询图书的isbn编号即可。

选用的爬虫框架是Scrapy，具体学习文档可参考：

官方文档：https://scrapy.org/

网页解析部分，如果是静态网页可以直接对返回的数据进行解析。

针对动态网页，最终选用的方案是Selenium Chrome方案。分析过程见以下文档：

这里主要分为三部分内容：

(1) 抓取各大免费代理，从实际效果来看，可用的合法代理还是比较少的。

(2) 当当图书抓取。

(3) 豆瓣图书抓取。

中间件部分针对抓取图书和抓取代理、使用免费代理和付费代理做了区分。

（持续整理中）

posted on 2020-04-01 16:15 麦克煎蛋阅读(1120) 评论(0) 编辑收藏举报