摘要: 最近在工作中写了很多 scrapy_redis 分布式爬虫,但是回想 scrapy 与 scrapy_redis 两者区别的时候,竟然,思维只是局限在了应用方面,于是乎,搜索了很多相关文章介绍,这才搞懂内部实现的原理。 首先我们从整体上来讲 scrapy是一个Python爬虫框架,爬取效率极高,具有 阅读全文
posted @ 2019-08-01 17:01 BoomOoO 阅读(2165) 评论(4) 推荐(1) 编辑
摘要: 背景: 大多数情况下,我们遇到的是访问频率限制。如果你访问太快了,网站就会认为你不是一个人。这种情况下需要设定好频率的阈值,否则有可能误伤。如果大家考过托福,或者在12306上面买过火车票,你应该会有这样的体会,有时候即便你是真的用手在操作页面,但是因为你鼠标点得太快了,它都会提示你: “操作频率太 阅读全文
posted @ 2019-08-01 01:16 BoomOoO 阅读(12546) 评论(0) 推荐(0) 编辑