Scrapy 中 Request 的使用

爬虫中请求与响应是最常见的操作，Request对象在爬虫程序中生成并传递到下载器中，后者执行请求并返回一个Response对象

一个Request对象表示一个HTTP请求，它通常是在爬虫生成，并由下载执行，从而生成Response

参数
- url（string） - 此请求的网址
- callback（callable） - 将使用此请求的响应（一旦下载）作为其第一个参数调用的函数。有关更多信息，请参阅下面的将附加数据传递给回调函数。如果请求没有指定回调，parse()将使用spider的方法。请注意，如果在处理期间引发异常，则会调用errback。
- method（string） - 此请求的HTTP方法。默认为'GET'。可设置为"GET", "POST", "PUT"等，且保证字符串大写
- meta（dict） - 属性的初始值Request.meta,在不同的请求之间传递数据使用
- body（str或unicode） - 请求体。如果unicode传递了，那么它被编码为 str使用传递的编码（默认为utf-8）。如果 body没有给出，则存储一个空字符串。不管这个参数的类型，存储的最终值将是一个str（不会是unicode或None）。
- headers（dict） - 这个请求的头。dict值可以是字符串（对于单值标头）或列表（对于多值标头）。如果 None作为值传递，则不会发送HTTP头.一般不需要
- encoding: 使用默认的 'utf-8' 就行
- dont_filter：是否过滤重复的URL地址，默认为 False过滤
- cookie（dict或list） - 请求cookie。这些可以以两种形式发送。
  - 使用dict：

request_with_cookies = Request(url="http://www.sxt.cn/index/login/login.html",)

- - 使用列表：

 request_with_cookies = Request(url="http://www.example.com",
                cookies=[{'name': 'currency',
                    'value': 'USD',
                    'domain': 'example.com',
                    'path': '/currency'}])

后一种形式允许定制 cookie的属性domain和path属性。这只有在保存Cookie用于以后的请求时才有用

request_with_cookies = Request(url="http://www.example.com",
                cookies={'currency': 'USD', 'country': 'UY'},
                meta={'dont_merge_cookies': True})

将附加数据传递给回调函数

请求的回调是当下载该请求的响应时将被调用的函数。将使用下载的Response对象作为其第一个参数来调用回调函数

def parse_page1(self, response):
  item = MyItem()
  item['main_url'] = response.url
  request = scrapy.Request("http://www.example.com/some_page.html",
               callback=self.parse_page2)
  request.meta['item'] = item
  return request


def parse_page2(self, response):
  item = response.meta['item']
  item['other_url'] = response.url
  return item

posted @ 2023-06-24 22:44 jiang_jiayun 阅读(351) 评论(0) 收藏举报

刷新页面返回顶部

jiangjiayun

Scrapy 中 Request 的使用

将附加数据传递给回调函数

公告