scrapy 爬虫框架(二)
scrapy 爬虫类
一. 重写 start_request 方法
1. scrapy 起始url
在创建爬虫的时候,父类中会执行start_request 函数,并且默认的回调函数为 def parge(self,response):pass
2. start_request函数
循环url 封装成request 对象,该对象中封装了url 和回调函数。
3. 调度器
request 对象放在了调度器中。
4. 可以在自己的爬虫中自定义一个start_request方法:
爬虫中:suning.py 文件中:
import scrapy from scrapy.http import Request from copy import deepcopy class SuningSpider(scrapy.Spider): name = 'suning'
allowed_domains = ['book.suning']
start_urls = ['https://book.suning.com/?safp=d488778a.10038.0.8cca61ce53'] # 重写 start_request 方法 def start_requests(self):
for url in self.start_urls:
yield Request(url, dont_filter=True,callback=self.parse) def parse(self, response):
pass
有疑问可以加wx:18179641802,进行探讨