scrapy常用设置和注意点!!!!

setting里的设置

HTTPERROR_ALLOWED_CODES = [405]   //这一条是忽略405错误退出进程,有可能跳到405页面,在parse注意判断,重新请求页面

爬虫里的设置

response.url   //这一条在parse里是返回上一个请求链接

meta = {'dont_redirect': True}      //这个是限定页面不能跳转
dont_filter = True   //这个是不过滤页面重新爬取,这个在页面取不到数据里,要重新爬取时很有用

中间件里的设置

process_exception   //这个方法里最好不要返回request 这样会停止进程的,最好在这里换IP然后什么也不要返回即可

 

posted @ 2019-08-02 11:09  火鸟网络  阅读(377)  评论(0编辑  收藏  举报