Scrapy-Redis分布式爬虫小白问题记录
1、首先我是将Redis装在了阿里云的一台CentOS6.8上,使用ps -ef|grep redis查看是否成功运行
2、CentOS安装scrapy请参考 http://blog.csdn.net/u012375924/article/details/51244485
3、setting.py里 REDIS_URL 的配置如下
master端 :
REDIS_HOST = 'localhost'
REDIS_PORT = 6379
slave端,没有账号密码直接填ip就可以 :
REDIS_URL = 'redis://user:pass@hostname:6379'
这个master端的意思如果你需要在安装redis的机器上也跑爬虫的话就这样配置,不过后面的写法会覆盖前面
4、CentOS默认安装的是Python2,需要升级的同学请看 http://blog.csdn.net/hobohero/article/details/54381475
5、连接Redis,输入start_url启动爬虫
redis-cli -h 192.168.1.112 -p 6379
192.168.1.112:6379>lpush myspider:start_urls http://xxx.com/xxx
注意这里的 myspider:start_urls 是你爬虫的redis_key,如果不设置会有默认值,如果你在lpush的时候写错,爬虫就获取不到start_url,爬虫也就一直在等待没有响应
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步