Scrapy(爬虫框架)中,Spider类中parse()方法的工作机制

作者:@kuaiquxie
作者的github:https://github.com/bitebita
本文为作者原创,如需转载,请注明出处:https://www.cnblogs.com/dzwj/p/16913934.html


Scrapy(爬虫框架)中,Spider类中parse()方法的工作机制:

self 是python 类的知识
parse(self,response):当请求url返回网页没有指定回调函数,
默认的Request对象的回调函数,用来处理网页返回的response,和生成的Item或者Request对象

以下分析一下parse()方法的工作机制:

1.因为使用的yield,而不是return,parse函数将会当做一个生成器使用,scrapy会注意调用parse方法中生成的结果,
并且判断该结果是一个什么样的类型

2.如果是request则会加入爬取队列中,如果是item类型则会使用pipeline处理,其他类型则会返回错误信息

3.scrapy取到第一部分的request不会立马就去发送request,只是将这个request放到队列中,然后接着从生成器中获取

4.取完了第一部分的request,然后再获取第二部分的item,取到item了,就会放到对应的pipeline中处理

5.parse方法作为回调函数(callback),赋值给Request,指定parse()方法处理这些请求scrapy.Request(url,callback=self.parse)

6.Request对象经过调度,执行生成scrapy.http.response()响应对象,并送回parse()方法,直到调度器中没有Requset(递归的思路)

7.取尽之后,parse()工作结束,引擎再根据对列和pipeline中的内容去执行相应的操作

8.程序在取得各个页面的items前,会先处理完之前所有的request对列的请求,然后再提取items
————————————————
原文链接:https://blog.csdn.net/qq_42281826/article/details/81017402

posted @   kuaiquxie  阅读(116)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 上周热点回顾(3.3-3.9)
· AI 智能体引爆开源社区「GitHub 热点速览」
历史上的今天:
2021-11-22 web2
点击右上角即可分享
微信分享提示