摘要: 1.检测模块说明 检测模块顾名思义就是验证某个东西然后看结果怎么样,这里文中说的是检测代理是否可用。 当我们从网上爬取代理下来时,比如:proxy = '185.78.228.24:8000',如何检测它是否有效呢? 测试一个代理是否可用的标准,在存储模块篇就提到过了【跳转】,这里再简单过一遍。如果 阅读全文
posted @ 2021-08-02 18:11 Rosaany 阅读(106) 评论(0) 推荐(0) 编辑
摘要: 1.存储模块说明 当我们从网上爬取下来代理时,负责存储工作就主要由存储模块来完成。 存储代理的方式可能有很多,既然保证代理不重复,且要有一个标识来说明代理的可用情况,还要实时处理每个代理。所以这里选用Reids的有序集合(sorted set),Redis有序集合和集合一样不允许存在重复,不同的是每 阅读全文
posted @ 2021-08-02 17:59 Rosaany 阅读(66) 评论(0) 推荐(0) 编辑
摘要: 1. 爬取模块说明 爬取模块篇,主要从网上找到一些免费代理网站,网站内仅开放的一点免费代理抓取下来,爬取下来能用的代理可谓稀少,假设从一个代理网站首页爬取20个免费代理,经过测试后剩下1、2个可用,因为免费的代理一般具有时效性,肯定不如花钱买的代理来得相对稳定。 既然爬取单个代理网站最后能用的只手可 阅读全文
posted @ 2021-08-02 17:43 Rosaany 阅读(625) 评论(0) 推荐(0) 编辑