临时
题目:数据存到本地,数据库
- 注意process_item方法中对item的返回:return item(item的传递性)
- 一个管道对应一个平台
基于spider的全站数据
- url的拼接
- 使用yield scrapy.Request(url,callback=self.parse)
spider的五大核心组件:spider、引擎、调度器、下载器、管道
请求传参:多个页面的数据分析,主要使用yield调用引擎去处理,yield scrapy.Request(otherUrl,callback,meta={'item':item}),之后再callback的方法中处理数据,最后yield item提交到管道。可以总结出yield方法是将数据进行管道处理,除了在pipelines.py中持久化数据,还可以使用它调用其他的请求,比如再次执行spider操作对数据进行解析,yield应该是引擎执行命令
图片爬取:ImagesPipeline