scrapy使用技巧调试、断点续爬

一、调试

scrapy view url   下载url

# console端,输入下面命令
scrapy shell url

# 进入python交互模式,查看打印的结果是否符合预期
response.xpath('')

我一般用于检测xpath是否正确

二、查看cookies debug

COOKIES_ENABLED = True
COOKIES_DEBUG = True

三、断点续传

 JOBDIR=目录

scrapy crawl somespider -s JOBDIR=tmp

tmp是当前目录名,记录工作状态的目录,设置之后Ctrl+C暂停,过一会会自动停下。要继续爬,只需执行相同的命令即可恢复

posted @ 2019-11-15 14:55  市丸银  阅读(843)  评论(0编辑  收藏  举报