发布项目到scrapyd
第一步:进入要发布的项目,修改scrapy.cfg文件;
修改[deploy]为[deploy:100],表示把爬虫发布到名为100的爬虫服务器上,一般在需要同时发布爬虫到多个目标
服务器时使用。下面我们取消注释,并将发布的project命名为:DOUYU。
使用命令: scrapyd-deploy <tartget> -p <project> --version <version> 在终端发布项目到scrapyd.
Target:deploy后面的名称。可以为空
Project:自行定义名称,跟爬虫的工程名字无关。
Version:自定义版本号,不写的话默认为当前时间戳。
发布:
网页刷新之后,会显示发布上去的项目:
创建运行爬虫任务:
命令: curl http://localhost:6800/schedule.json -d project=myproject -d spider=spider_name
报错:显示命令 Command 'curl' not found, but can be installed with: sudo apt install curl
根据提示安装curl,在终端输入: sudo apt install curl
再次输入创建运行爬虫任务的命令:
curl http://localhost:6800/schedule.json -d project=DOUYU -d spider=yanzhi
其中:DOUYU为发布的项目显示名,yanzhi为spiders文件里爬虫文件名。
上面的命令输入之后,可以看见服务器开启爬虫任务,爬虫项目数据保存的位置也会出现数据,也就是说,爬
虫文件开始运行,数据得到保存。