摘要: 1 引擎:Hi!Spider, 你要处理哪一个网站? 2 Spider:老大要我处理xxxx.com。 3 引擎:你把第一个需要处理的URL给我吧。 4 Spider:给你,第一个URL是xxxxxxx.com。 5 引擎:Hi!调度器,我这有request请求你帮我排序入队一下。 6 调度器:好的 阅读全文
posted @ 2019-02-16 12:07 点点滴滴汇聚成河 阅读(168) 评论(0) 推荐(0) 编辑
摘要: Scrapy Engine(引擎): 负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据传递等。 Scheduler(调度器): 它负责接受引擎发送过来的Request请求,并按照一定的方式进行整理排列,入队,当引擎需要时,交还给引擎。 Dow 阅读全文
posted @ 2019-02-16 12:05 点点滴滴汇聚成河 阅读(186) 评论(0) 推荐(0) 编辑
摘要: 1.安装python并配置好环境变量 2.更新pip ,这步操作时遇到了问题,更新超时了,所以加上--default-timeout来解决超时问题:python -m pip --default-timeout=100 install --upgrade pip 3.安装lxml :pip ints 阅读全文
posted @ 2019-02-16 11:31 点点滴滴汇聚成河 阅读(1120) 评论(0) 推荐(0) 编辑