数据量大的情况用布隆过滤器判断是否已存在

处理待爬链接,目标网址数据量大的情况下,判断目标网址是否已存在

from bloom_filter import BloomFilter
bloom = BloomFilter(max_elements=10000000, error_rate=0.1)
# 添加URL
bloom.add('https://www.cnblogs.com/6min')
#判断是否在 exists = bloom.__contains__('https://www.cnblogs.com/6min')

 

posted @ 2019-05-25 10:41  1553  阅读(407)  评论(0编辑  收藏  举报