摘要: 页面爬的多了,量上去了之后,就会遇到其他的问题,其实不管做什么技术量大了都会有问题。一般情况下,我认为解决"大量"问题的思路有两个:一种是着力于优化系统的能力,让原本只能一分钟处理100条的系统提升到一分钟1000条之类的,在我看来并行、分布式、集群都属于这个范畴,这种思路下,系统处理的内容没有变化 阅读全文
posted @ 2019-01-17 18:52 zbllly 阅读(2261) 评论(0) 推荐(1) 编辑
摘要: scrapy适合一次性爬取全站,如果我想多次爬取,主目录页面难免会出现重复,去重增量爬取就很有必要了。 我在网上搜到了这样的文章scrapy+redis增量爬取, 逻辑是前一次存取每次爬过的url进数据库,这一次在pipeline中再把数据库中已爬url读取存进redis里,然后比对这次爬的item 阅读全文
posted @ 2019-01-17 18:42 zbllly 阅读(1263) 评论(0) 推荐(2) 编辑