2019 年 1月 17 日随笔档案 - zbllly

2019年1月17日

摘要：页面爬的多了，量上去了之后，就会遇到其他的问题，其实不管做什么技术量大了都会有问题。一般情况下，我认为解决"大量"问题的思路有两个：一种是着力于优化系统的能力，让原本只能一分钟处理100条的系统提升到一分钟1000条之类的，在我看来并行、分布式、集群都属于这个范畴，这种思路下，系统处理的内容没有变化阅读全文

posted @ 2019-01-17 18:52 zbllly 阅读(2261) 评论(0) 推荐(1) 编辑

scrapy+redis增量爬虫

摘要： scrapy适合一次性爬取全站，如果我想多次爬取，主目录页面难免会出现重复，去重增量爬取就很有必要了。我在网上搜到了这样的文章scrapy+redis增量爬取, 逻辑是前一次存取每次爬过的url进数据库，这一次在pipeline中再把数据库中已爬url读取存进redis里，然后比对这次爬的item 阅读全文

posted @ 2019-01-17 18:42 zbllly 阅读(1263) 评论(0) 推荐(2) 编辑

zbllly

公告