临时

题目：数据存到本地，数据库

注意process_item方法中对item的返回：return item（item的传递性）
一个管道对应一个平台

基于spider的全站数据

url的拼接
使用yield scrapy.Request(url,callback=self.parse)

spider的五大核心组件：spider、引擎、调度器、下载器、管道

请求传参：多个页面的数据分析，主要使用yield调用引擎去处理，yield scrapy.Request(otherUrl,callback,meta={'item':item})，之后再callback的方法中处理数据，最后yield item提交到管道。可以总结出yield方法是将数据进行管道处理，除了在pipelines.py中持久化数据，还可以使用它调用其他的请求，比如再次执行spider操作对数据进行解析，yield应该是引擎执行命令

图片爬取：ImagesPipeline

posted @ 2020-12-30 17:49 cambra 阅读(108) 评论(0) 编辑收藏举报

刷新页面返回顶部

cambra

临时

公告