04 2020 档案

scrapy优化内存占用

摘要：最近发现公司的scrapy爬虫服务运行起来之后，占用内存持续增大，单个爬虫爬取几十万网页之后，占用内存达到1,2个G，单台服务器运行10个以上的爬虫时，很快就把服务器内存耗尽了。于是着手对爬虫进行空间性能分析及优化首先分析以下可能原因，并依次进行排查：内存泄露资源长时间占用无法释放队列堵塞排阅读全文

posted @ 2020-04-14 15:13 BruceLong 阅读(1713) 评论(0) 推荐(0) 编辑

Scrapy爬虫去重效率优化之Bloom Filter的算法的对接

摘要：首先回顾一下Scrapy-Redis的去重机制。Scrapy-Redis将Request的指纹存储到了Redis集合中，每个指纹的长度为40，例如27adcc2e8979cdee0c9cecbbe8bf8ff51edefb61就是一个指纹，它的每一位都是16进制数。我们计算一下用这种方式耗费的存储阅读全文

posted @ 2020-04-11 08:17 BruceLong 阅读(409) 评论(0) 推荐(0) 编辑

scrapy_redis对接布隆过滤器(Bloom Filter)

摘要：使用方式： pip3 install scrapy-redis-bloomfilter 使用的方法和Scrapy-Redis基本相似，在这里说明几个关键配置。 # 1. 替换原来的请求调度器的实现类，使用 scrapy-redis 中请求调度器SCHEDULER = "scrapy_redis_bl 阅读全文

posted @ 2020-04-10 18:48 BruceLong 阅读(1115) 评论(0) 推荐(0) 编辑

Python-Scrapy shell 带头部headers请求

摘要：scrapy shell -s USER_AGENT="" request_url 就可以完成带头部的请求添加，如请求简书（不带头部请求时403错误） scrapy shell -s USER_AGENT="Mozilla/5.0 (Windows NT 10.0; Win64; x64; rv:6 阅读全文

posted @ 2020-04-03 16:38 BruceLong 阅读(729) 评论(0) 推荐(0) 编辑

公告

昵称： BruceLong
园龄： 7年2个月
粉丝： 34
关注： 3

+加关注

2025年3月

日

一

二

三

四

五

六

brucelong

04 2020 档案

公告

搜索

常用链接

我的标签

随笔分类

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论