摘要: scrapy 五大核心组件的工作流程当执行爬虫文件时,5大核心组件就在工作了 spiders 引擎(Scrapy Engine)管道(item Pipeline)调度器(Scheduler)下载器(Downloader) 首先执行爬虫文件spider,spider的作用是 (1)解析(2)发请求,原 阅读全文
posted @ 2019-01-14 21:43 浮云遮月 阅读(702) 评论(0) 推荐(0) 编辑
摘要: scrapy 发送post请求 核心: 重写父类 start_requests方法,默认的 start_requests方法提交的是yield scrapy.Request(url=url,formdata=formdata,callback=self.parse)这种get请求,改写为 yield 阅读全文
posted @ 2019-01-14 21:41 浮云遮月 阅读(1028) 评论(0) 推荐(0) 编辑
摘要: Linux:pip3 install scrapy window: a:pip3 install wheel b:下载twisted高性能异步模块 https://www.lfd.uci.edu/~gohlke/pythonlibs/#twisted c:进入下载的目录 执行pip3 install 阅读全文
posted @ 2019-01-14 21:25 浮云遮月 阅读(485) 评论(0) 推荐(0) 编辑