scrapy request response
一、Request
查看源码的方式:scrapy -> http-> request -> __init__.py
1、meta
作用:用于parse方法之间进行传递值,Request() -> response.meta['内容']
注意:先判断response.meta里是否有值,如代理池
二、Response
查看源码方式:scrapy -> http -> response -> __init__.py ->
1、status
作用:查看响应的状态码
格式:response.status
2、urljoin方法
作用:拼接url,网址的链接,有可能没有前面的域名,需要urljoin方法进行拼接
格式:response.urljoin(next_url)
3、follow
response.follow() 和 Response()用法基本一致
区别
follow()
a、follow()和url可以使用相对地址,不必使用urljoin()方法
b、直接使用CSS选择器,雨我无瓜我只用xpath
c、直接使用标签,雨我无瓜我只用xpath
三、下载中间件
查看源码:scrapy -> downloadermiddlewares
1、useragent
可以为每个爬虫设置不同的useragent
class MovieSpider(scrapy.Spider): name = 'quotes' useragent = '' allowed_domains = ['quotes.toscrape.com/'] start_urls = ['http://quotes.toscrape.com/']