一个爬虫项目里有多个爬虫,如何识别数据来源

问题描述:在一个爬虫项目里有多个爬虫进行数据的爬取,如何在pipeline中识别数据是来自哪个爬虫的,

方法:

方法一:在 爬虫的parse函数下,对爬取的数据添加一个标识字段:

1 def parse(self, response):
2     item["come_from"]="spider_name"

方法二:在pipelines.py中的process_item函数里的spider的属性来判断:

1 class MyspiderPipeline(object):
2     def process_item(self, item, spider):
3         if spider.name=="spider_name":#spider_name是自己定义的爬虫名
4             

 

posted @ 2018-11-22 20:01  飘在天上的云  阅读(622)  评论(0编辑  收藏  举报