scrapy 爬虫框架（二）

scrapy 爬虫类

一. 重写 start_request 方法

1. scrapy 起始url

　　在创建爬虫的时候，父类中会执行start_request 函数，并且默认的回调函数为 def parge(self,response):pass

2. start_request函数

　　循环url 封装成request 对象,该对象中封装了url 和回调函数。

3. 调度器

　　request 对象放在了调度器中。

4. 可以在自己的爬虫中自定义一个start_request方法：

爬虫中：suning.py 文件中：

import scrapy
from scrapy.http import Request

from copy import deepcopy
class SuningSpider(scrapy.Spider):
    name = 'suning'

    allowed_domains = ['book.suning']

    start_urls = ['https://book.suning.com/?safp=d488778a.10038.0.8cca61ce53']

    # 重写 start_request 方法
    def start_requests(self):

        for url in self.start_urls:

            yield Request(url, dont_filter=True,callback=self.parse)


    def parse(self, response):
　　　　　pass

posted @ 2023-10-26 22:37 冰底熊阅读(13) 评论(0) 编辑收藏举报

侠客云

scrapy 爬虫框架（二）

一. 重写 start_request 方法

公告