2019 年 10月 5 日随笔档案 - tulintao

2019年10月5日

摘要： Spiders：负责处理所有的response，从这里面分析提取数据，获取Item字段所需要的数据，并将需要跟进的URL提交给引擎，再次进入到Scheduler调度器中 Engine：框架的核心，负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号阅读全文

posted @ 2019-10-05 16:10 tulintao 阅读(2413) 评论(2) 推荐(0) 编辑

使用RequestsCookieJar自动保存并传递cookie

摘要：使用python的requests开发爬虫程序的时候，经常需要将之前请求返回的cookie值作为下一个请求的cookie进行调用，比如模拟登录之后的返回的sessionID，就是需要作为后续请求的cookie参数分成三步走： 1、通过requests模块导入 from requests.cooki 阅读全文

posted @ 2019-10-05 11:05 tulintao 阅读(6999) 评论(0) 推荐(0) 编辑

tulintao

公告