一个爬虫项目里有多个爬虫,如何识别数据来源
问题描述:在一个爬虫项目里有多个爬虫进行数据的爬取,如何在pipeline中识别数据是来自哪个爬虫的,
方法:
方法一:在 爬虫的parse函数下,对爬取的数据添加一个标识字段:
1 def parse(self, response): 2 item["come_from"]="spider_name"
方法二:在pipelines.py中的process_item函数里的spider的属性来判断:
1 class MyspiderPipeline(object): 2 def process_item(self, item, spider): 3 if spider.name=="spider_name":#spider_name是自己定义的爬虫名 4