临时

题目:数据存到本地,数据库

  • 注意process_item方法中对item的返回:return item(item的传递性)
  • 一个管道对应一个平台

基于spider的全站数据

  • url的拼接
  • 使用yield scrapy.Request(url,callback=self.parse)

spider的五大核心组件:spider、引擎、调度器、下载器、管道

请求传参:多个页面的数据分析,主要使用yield调用引擎去处理,yield scrapy.Request(otherUrl,callback,meta={'item':item}),之后再callback的方法中处理数据,最后yield item提交到管道。可以总结出yield方法是将数据进行管道处理,除了在pipelines.py中持久化数据,还可以使用它调用其他的请求,比如再次执行spider操作对数据进行解析,yield应该是引擎执行命令

图片爬取:ImagesPipeline

posted @   cambra  阅读(110)  评论(0编辑  收藏  举报
编辑推荐:
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
点击右上角即可分享
微信分享提示