原创整理:scrapyd部署
学习目标
- 了解 scrapyd的使用流程
1. scrapyd的介绍
scrapyd是一个用于部署和运行scrapy爬虫的程序,它允许你通过JSON API来部署爬虫项目和控制爬虫运行,scrapyd是一个守护进程,监听爬虫的运行和请求,然后启动进程来执行它们
所谓json api本质就是post请求的webapi
2. scrapyd的安装
scrapyd服务: pip install scrapyd
scrapyd客户端: pip install scrapyd-client
3.修改采集成功项目中scrpy.cfg 文件中配置
图片3-1
4.先启动scrapyd服务
启动命名: scrapyd
浏览器打开:http://127.0.0.1:6800/
浏览器打开页面如下图(但没有红色方框中内容)
- 点击job可以查看任务监控界面
5.部署项目到scrapyd
打开页面中,可见部署语法格式:
curl http://localhost:6800/schedule.json -d project=default -d spider=somespider
如上链接:
project=default(部署名称,即本例 scrapy.cfg配置文件中project的值)
spider
=你开发蜘蛛的名称,本例中 sqrcwcom
本例代码:curl http://127.0.0.1:6800/schedule.json -d project=ibaiqi_sqrcw_com_01 -d spider=sqrcwcom
但在CMD操作成功,以管理员身份运行的
部署成功后,可见下图
点击Jobs,可查看正在运行状态
更多知识:参者 https://zhuanlan.zhihu.com/p/259521189
特别强调,因服务器采用python的env 环境,设置路径如下
做产品的程序,才是好的程序员!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· Docker 太简单,K8s 太复杂?w7panel 让容器管理更轻松!