scrapyd scrapy调度服务

scrapyd 是官方出的调度服务,对于部署可以结合scrapyd-client,以下是一个简单说明

配置

scrapy 提供了一个scrapy.cfg 的配置文件,可以定义scrapyd服务地址

  • scrapy.cfg 参考配置
[deploy]
url = http://scrapyd.example.com/api/scrapyd
username = scrapy
password = secret
project = projectname

包含多个target 的

[deploy:targetname]
url = http://scrapyd.example.com/api/scrapyd
 
[deploy:another]
url = http://other.example.com/api/scrapyd

参考使用


备注:基于自己的调度,对于用户开发的spider 通过scrapyd-client 部署到scrapyd 中的项目进行调度,数据可以通过item exports 或者item pipeline 到三方存储中,之后就是数据处理,分析,以及数据服务的开发了

说明

scrapyd 属于一个简单的 scrapy 调度服务,部署简单,而且是官方支持的,当然也有缺点就是集群的支持,缺少分布式能力,对于简单场景基本够用

参考资料

https://scrapyd.readthedocs.io/en/latest/
https://github.com/scrapy/scrapyd
https://docs.scrapy.org/en/latest/topics/deploy.html
https://github.com/my8100/scrapydweb
https://github.com/Gerapy/Gerapy
https://github.com/scrapy/scrapyd-client

posted on   荣锋亮  阅读(32)  评论(0编辑  收藏  举报

相关博文:
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2022-07-11 Nightingale 监控报警平台
2021-07-11 data mesh & data lake & data fabric
2021-07-11 java 几个开源dataframe 的实现包
2021-07-11 archaius netflix 的配置管理工具框架
2020-07-11 记一次keepalived lvs 负载均衡异常的问题
2019-07-11 dbt 集成presto试用
2019-07-11 dbt 0.14.0 试用

导航

< 2025年3月 >
23 24 25 26 27 28 1
2 3 4 5 6 7 8
9 10 11 12 13 14 15
16 17 18 19 20 21 22
23 24 25 26 27 28 29
30 31 1 2 3 4 5
点击右上角即可分享
微信分享提示