摘要: 先说明一下五大组件各自的作用: 引擎(Scrapy) 用来完成整个系统的数据流处理,触发事务(框架核心)。 调度器(Scheduler) 包括两部分:过滤器和队列,用来接受引擎发过来的请求,先经过过滤器对请求进行去重,然后压入队列中,可以想像成一个URL(抓取网页的网址或者说是链接)的优先队列,由它 阅读全文
posted @ 2022-01-26 16:40 Sunshine_y 阅读(317) 评论(0) 推荐(0) 编辑
摘要: 方法一:基于终端指令 说明:只可以将parse()的返回值存储到本地的文件中,而且存储的文本文件的类型只能为:'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle' 指令:终端输入命令,scrapy crawl xxx -o file 阅读全文
posted @ 2022-01-26 16:25 Sunshine_y 阅读(41) 评论(0) 推荐(0) 编辑