摘要: Spiders: 负责处理所有的response,从这里面分析提取数据,获取Item字段所需要的数据,并将需要跟进的URL提交给引擎,再次进入到Scheduler调度器中 Engine: 框架的核心,负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号 阅读全文
posted @ 2019-10-05 16:10 tulintao 阅读(2404) 评论(2) 推荐(0) 编辑
摘要: 使用python的requests开发爬虫程序的时候,经常需要将之前请求返回的cookie值作为下一个请求的cookie进行调用,比如模拟登录之后的返回的sessionID,就是需要作为后续请求的cookie参数 分成三步走: 1、通过requests模块导入 from requests.cooki 阅读全文
posted @ 2019-10-05 11:05 tulintao 阅读(6964) 评论(0) 推荐(0) 编辑