scrapy request response

一、Request

查看源码的方式：scrapy -> http-> request -> __init__.py

1、meta

作用：用于parse方法之间进行传递值，Request() -> response.meta['内容']

注意：先判断response.meta里是否有值，如代理池

二、Response

查看源码方式：scrapy -> http -> response -> __init__.py ->

1、status

作用：查看响应的状态码

格式：response.status

2、urljoin方法

作用：拼接url，网址的链接，有可能没有前面的域名，需要urljoin方法进行拼接

格式：response.urljoin(next_url)

3、follow

response.follow() 和 Response()用法基本一致

区别

follow()

a、follow()和url可以使用相对地址，不必使用urljoin()方法

b、直接使用CSS选择器，雨我无瓜我只用xpath

c、直接使用标签，雨我无瓜我只用xpath

三、下载中间件

查看源码：scrapy -> downloadermiddlewares

1、useragent

可以为每个爬虫设置不同的useragent

class MovieSpider(scrapy.Spider):
    name = 'quotes'
    useragent = ''
    allowed_domains = ['quotes.toscrape.com/']
    start_urls = ['http://quotes.toscrape.com/']

posted @ 2019-11-12 16:47 市丸银阅读(99) 评论(0) 编辑收藏举报

刷新页面返回顶部

市丸银

知行合一

scrapy request response

公告