去重
去重原理:
相当于是写了集合self.vister_urls=set(),把所有的url放进去当执行yield Requets的时候就会执行,进行判断,看是否这个访问的url在这个集合里面,如果在的话,就不添加进去了
from scrapy.utils.request import request_fingerprint##进行加密,url的唯一标识
每一次yield Request的时候,就会执行settings里面的去重
从from_settings开始执行,返回的时候,就执行下面的requets_seen方法
settings:
#执行自定义的去重规则
DUPEFILTER_CLASS='scrapyproject1.dupliter.Self_Dupliter'
spider:
#yield Request(url=page_url, callback=self.parse,dont_filter=True)##每一次requets的时候,就会执行去重的方法,不准询去重规则,如果要遵循的话,那么应该为false
要遵循去重规则,就要改成dont_filter=False,或者不添加,默认为False
原理分析:
from scrapy.dupefilter import BaseDupeFilter
from scrapy.utils.request import request_fingerprint##进行加密,url的唯一标识,会进行加密处理
'''
在scrapy里面有一个唯一标识
http://xxx.com/?k1=v1&k2=v2
http://xxx.com/?k2=v2&k1=v1
如果是md5进行加密的话,这两个url是不一样的,但是这两个url是相同的
但是scrapy里面有一个方法,可以辨别出两个相同的url出来
request_fingerprint(放在里面进行加密,如果是相同的打印出来也是相同的)
'''
##去重
class Self_Dupliter(BaseDupeFilter):
def __init__(self):
self.vister_urls=set()
##设置url元祖
@classmethod
def from_settings(cls, settings):
print('最开始')
return cls()
# def request_seen(self, request):###传入的requets里面有url,可以直接取出来
# print('执行去重规则')
# if request.url in self.vister_urls:
# return True
# self.vister_urls.add(request.url)
# return False
def request_seen(self, request): ###传入的requets里面有url,可以直接取出来
print('执行去重规则')
print(request.url)
fd=request_fingerprint(request)##进行了加密处理,长度一样
if fd in self.vister_urls:##如果访问的url在这里的话,就返回true,不执行
print('存在')
print(request.url)
return True
self.vister_urls.add(fd)
##爬虫开始的时候
def open(self): # can return deferred
print('开始')
##redis,爬虫结束
def close(self, reason): # can return a deferred
print('结束')
##记录日志的时候
def log(self, request, spider): # log that a request has been filtered
print('记录日志')
'''
可以让他每次来不执行init方法
直接是下面的方法,所以init里面定义的set可以一直加值,在进行判断,相当于是一个存放url(不重复)集合
执行顺序:
最开始执行settings(有执行去重类,导入模块的时候)
在执行parse方法,如果settings里面配置了去重的类的话,那么每yield Requets的时候,就会执行这个自定义的去重类:
去重类执行顺序:先执行from_seen,在执行open,在执行request_seen(多次执行,每yield Request一次的话,就执行一次这个方法),最后执行close
'''
连接redis去重处理(放进redis集合里面)
爬虫里面:
from scrapy.http.request import Request
def parse(self, response):
print('执行操作')
# obj=response.xpath('//*[@id="dig_lcpage"]/ul/li/a[re:test(@class,"ct_pagepa")]/@href').extract()
obj=response.xpath('//*[@id="dig_lcpage"]/ul/li/a[re:test(@href,"/all/hot/recent/(\d+)")]/@href').extract()
for i in obj:
# print(i)
page='https://dig.chouti.com'+i
yield Request(url=page,callback=self.parse)#dont_filter=True是不执行去重的,当为false是执行去重的
settings里面:
DUPEFILTER_CLASS='scrapy_pro.dupfliter.DupFliter'
去重类里面:
from scrapy.dupefilter import BaseDupeFilter
from scrapy.utils.request import request_fingerprint
import redis
class DupFliter(BaseDupeFilter):
def __init__(self):
self.dupdic=redis.Redis(host='127.0.0.1',port=6379)
# def request_seen(self,request):
# url=request_fingerprint(request)
# if url in self.dupdic:
# return True
# self.dupdic.add(url)
# print('添加成功',request.url)
def request_seen(self,request):
url=request_fingerprint(request)
print('执行去重')
if url==1:
self.dupdic.sadd('scrapy_urls', request.url) ##做判断,看是否是相等的
print('添加成功', request.url)
return False
print('已经存在',request.url)
return True
# 如果是添加成功的haul,那么久返回fasle,不做处理,如果返回true就会执行下一个yield