摘要: 1.创建一个新项目: scrapy startproject myproject 2.在新项目中创建一个新的spider文件: scrapy genspider mydomain mydomain.com mydomain为spider文件名,mydomain.com为爬取网站域名 3.全局命令: 阅读全文
posted @ 2020-06-24 19:35 时光哥哥 阅读(456) 评论(0) 推荐(0) 编辑
摘要: Spiders(爬虫):它负责处理所有Responses,从中分析提取数据,获取Item字段需要的数据,并将需要跟进的URL提交给引擎,再次进入Scheduler(调度器)Engine(引擎):负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯,信号、数据 阅读全文
posted @ 2020-06-24 19:31 时光哥哥 阅读(230) 评论(0) 推荐(0) 编辑