scrapy常用设置和注意点!!!!
setting里的设置
HTTPERROR_ALLOWED_CODES = [405] //这一条是忽略405错误退出进程,有可能跳到405页面,在parse注意判断,重新请求页面
爬虫里的设置
response.url //这一条在parse里是返回上一个请求链接
meta = {'dont_redirect': True} //这个是限定页面不能跳转
dont_filter = True //这个是不过滤页面重新爬取,这个在页面取不到数据里,要重新爬取时很有用
中间件里的设置
process_exception //这个方法里最好不要返回request 这样会停止进程的,最好在这里换IP然后什么也不要返回即可