scrapy 爬虫框架(二)

 

scrapy 爬虫类

一.  重写 start_request 方法

1. scrapy 起始url 

  在创建爬虫的时候,父类中会执行start_request 函数,并且默认的回调函数为 def parge(self,response):pass

2. start_request函数

  循环url 封装成request 对象,该对象中封装了url 和回调函数。

3. 调度器 

  request 对象放在了调度器中。

4. 可以在自己的爬虫中自定义一个start_request方法:

爬虫中:suning.py 文件中:

import scrapy
from scrapy.http import Request

from copy import deepcopy
class SuningSpider(scrapy.Spider):
    name = 'suning'
allowed_domains = ['book.suning']
start_urls
= ['https://book.suning.com/?safp=d488778a.10038.0.8cca61ce53'] # 重写 start_request 方法 def start_requests(self):
for url in self.start_urls:
yield Request(url, dont_filter=True,callback=self.parse) def parse(self, response):
     pass

 

posted @ 2023-10-26 22:37  冰底熊  阅读(13)  评论(0编辑  收藏  举报