2020 年 6月 24 日随笔档案 - 时光哥哥

2020年6月24日

摘要： 1.创建一个新项目： scrapy startproject myproject 2.在新项目中创建一个新的spider文件： scrapy genspider mydomain mydomain.com mydomain为spider文件名，mydomain.com为爬取网站域名 3.全局命令：阅读全文

posted @ 2020-06-24 19:35 时光哥哥阅读(456) 评论(0) 推荐(0) 编辑

scrapy数据流程

摘要： Spiders(爬虫):它负责处理所有Responses,从中分析提取数据，获取Item字段需要的数据，并将需要跟进的URL提交给引擎，再次进入Scheduler(调度器)Engine(引擎)：负责Spider、ItemPipeline、Downloader、Scheduler中间的通讯，信号、数据阅读全文

posted @ 2020-06-24 19:31 时光哥哥阅读(230) 评论(0) 推荐(0) 编辑

时光哥哥

公告