Scrapy学习-17-暂停和重启
Scrapy爬虫暂停和重启
在当前项目下新建一个用于存储中间过程变量的目录
注意不同的spider不能共用一个目录
同一个spider每次运行时也必须使用新的目录
mkdir <spider_porject_path>/job_process
带参数的命令启动方式
1 scrapy crawl <spider_name> -s JOBDIR=job_process/001
为什么不能在pycharm中使用能
因为爬虫暂停接收的是Ctrl+C信号,而pychar暂停时没有使用Ctrl+C信号
一次Ctrl+C
暂停只能按一次,多次也会直接关闭,并且按下Ctrl+C后spider还是会继续运行,它需要完处理未完成的任务等善后工作
重新启动
scrapy crawl <spider_name> -s JOBDIR=job_process/001 # 可以观察到两次请求的第一个页面都不一样
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步