2022 年 1月 26 日随笔档案 - Sunshine_y

2022年1月26日

摘要：先说明一下五大组件各自的作用：引擎（Scrapy）用来完成整个系统的数据流处理，触发事务（框架核心）。调度器（Scheduler）包括两部分：过滤器和队列，用来接受引擎发过来的请求，先经过过滤器对请求进行去重，然后压入队列中，可以想像成一个URL（抓取网页的网址或者说是链接）的优先队列，由它阅读全文

posted @ 2022-01-26 16:40 Sunshine_y 阅读(317) 评论(0) 推荐(0) 编辑

scrapy持久化存储

摘要：方法一：基于终端指令说明：只可以将parse()的返回值存储到本地的文件中，而且存储的文本文件的类型只能为：'json', 'jsonlines', 'jl', 'csv', 'xml', 'marshal', 'pickle' 指令：终端输入命令，scrapy crawl xxx -o file 阅读全文

posted @ 2022-01-26 16:25 Sunshine_y 阅读(41) 评论(0) 推荐(0) 编辑

TzySec

公告