scrapy使用技巧调试、断点续爬
一、调试
scrapy view url 下载url
# console端,输入下面命令 scrapy shell url # 进入python交互模式,查看打印的结果是否符合预期 response.xpath('')
我一般用于检测xpath是否正确
二、查看cookies debug
COOKIES_ENABLED = True
COOKIES_DEBUG = True
三、断点续传
JOBDIR=目录
scrapy crawl somespider -s JOBDIR=tmp
tmp是当前目录名,记录工作状态的目录,设置之后Ctrl+C暂停,过一会会自动停下。要继续爬,只需执行相同的命令即可恢复