scrapy request response

一、Request

查看源码的方式:scrapy -> http-> request -> __init__.py

1、meta

作用:用于parse方法之间进行传递值,Request() -> response.meta['内容']

注意:先判断response.meta里是否有值,如代理池

二、Response

查看源码方式:scrapy -> http -> response -> __init__.py ->

1、status

作用:查看响应的状态码

格式:response.status

2、urljoin方法

作用:拼接url,网址的链接,有可能没有前面的域名,需要urljoin方法进行拼接

格式:response.urljoin(next_url)

3、follow

response.follow() 和 Response()用法基本一致

区别

follow()

a、follow()和url可以使用相对地址,不必使用urljoin()方法

b、直接使用CSS选择器,雨我无瓜我只用xpath

c、直接使用标签,雨我无瓜我只用xpath

三、下载中间件

查看源码:scrapy -> downloadermiddlewares

1、useragent

可以为每个爬虫设置不同的useragent

class MovieSpider(scrapy.Spider):
    name = 'quotes'
    useragent = ''
    allowed_domains = ['quotes.toscrape.com/']
    start_urls = ['http://quotes.toscrape.com/']

 

posted @ 2019-11-12 16:47  市丸银  阅读(97)  评论(0编辑  收藏  举报