临时

题目:数据存到本地,数据库

  • 注意process_item方法中对item的返回:return item(item的传递性)
  • 一个管道对应一个平台

基于spider的全站数据

  • url的拼接
  • 使用yield scrapy.Request(url,callback=self.parse)

spider的五大核心组件:spider、引擎、调度器、下载器、管道

请求传参:多个页面的数据分析,主要使用yield调用引擎去处理,yield scrapy.Request(otherUrl,callback,meta={'item':item}),之后再callback的方法中处理数据,最后yield item提交到管道。可以总结出yield方法是将数据进行管道处理,除了在pipelines.py中持久化数据,还可以使用它调用其他的请求,比如再次执行spider操作对数据进行解析,yield应该是引擎执行命令

图片爬取:ImagesPipeline

posted @ 2020-12-30 17:49  cambra  阅读(108)  评论(0编辑  收藏  举报