scrapyd打包到服务器运行
一进入centos系统
这里要注意你是在哪个python目录下执行的下面两个命令
scrapyd
spiderkeeper --username youname --password yourpasswd
在哪里执行的scrapyd那么就用的哪个版本的python,由于centos默认的是python2.7,如果要想运行python3.x,那么需要在你的python3.x环境下运行scrapyd
如果后台运行,加上nohup和&
下面是spiderkeeper可以加的参数信息
spiderkeeper [options] Options: -h, --help 展示帮助信息并且退出 --host=HOST host, 默认:0.0.0.0 --port=PORT port, 默认:5000 --username=USERNAME 设置用户名 ,默认: admin --password=PASSWORD 设置密码 ,默认: admin --type=SERVER_TYPE 接受蜘蛛服务器类型, 默认: scrapyd --server=SERVERS 爬虫服务器, 默认: ['http://localhost:6800'] --database-url=DATABASE_URL SpiderKeeper 数据库,默认: sqlite:////home/souche/SpiderKeeper.db --no-auth 不进行验证 -v, --verbose 日志级别
二,打包文件
1、进入带有scrapy.cfg文件的目录,
scrapy.cfg文件是给scrapyd-deploy使用的,
将里面url这行代码的注释去掉,并且在【deploy的位置】设置你的部署名称
[settings] default = company_info.settings [deploy:wj] url = http://localhost:6800/ project = company_info
2、执行scrapyd-deploy,测试scrapyd-deploy是否可以运行
scrapyd-deploy -l
如果出现 wj http://localhost:6800/ 说明正常运行
3、执行scrapy list 查看要可以运行的项目
4、用这个命令:scrapyd-deploy 部署名称 -p 项目名称
执行 scrapyd-deploy wj -p TotalSpider
该命令( scrapyd-deploy)通过读取scrapy项目目录下的配置文件scrapy.cfg来获取项目信息。
每一个scrapy.cfg对于scrapyd来说都是一个target。所以我们需要先编辑scrapy.cfg文件
[deploy:NAME]
如果你只有一个deploy配置那么可以不写NAME
但是如果你需要在多个远程服务器或者多个scrapyd进程上部署的话
应该为不同的deploy命名,方便部署。
5、scrapyd-deploy --build-egg output.egg
输入完之后会生成一个蛋文件,上传入windows,上传至spiderkeeper即可
参考:
https://www.jianshu.com/p/93ccb59ce9b3
https://blog.csdn.net/zhaobig/article/details/78670176?locationNum=7&fps=1