scrapyd scrapy调度服务

scrapyd 是官方出的调度服务,对于部署可以结合scrapyd-client,以下是一个简单说明

配置

scrapy 提供了一个scrapy.cfg 的配置文件,可以定义scrapyd服务地址

  • scrapy.cfg 参考配置
[deploy]
url = http://scrapyd.example.com/api/scrapyd
username = scrapy
password = secret
project = projectname

包含多个target 的

[deploy:targetname]
url = http://scrapyd.example.com/api/scrapyd
 
[deploy:another]
url = http://other.example.com/api/scrapyd

参考使用


备注:基于自己的调度,对于用户开发的spider 通过scrapyd-client 部署到scrapyd 中的项目进行调度,数据可以通过item exports 或者item pipeline 到三方存储中,之后就是数据处理,分析,以及数据服务的开发了

说明

scrapyd 属于一个简单的 scrapy 调度服务,部署简单,而且是官方支持的,当然也有缺点就是集群的支持,缺少分布式能力,对于简单场景基本够用

参考资料

https://scrapyd.readthedocs.io/en/latest/
https://github.com/scrapy/scrapyd
https://docs.scrapy.org/en/latest/topics/deploy.html
https://github.com/my8100/scrapydweb
https://github.com/Gerapy/Gerapy
https://github.com/scrapy/scrapyd-client

posted on 2024-07-11 07:12  荣锋亮  阅读(26)  评论(0编辑  收藏  举报

导航