摘要: 什么是增量爬虫 爬虫过程中,常常要对目标网站的新数据进行抓取,遇到已经爬过的网页需要进行过滤。本文介绍用redis数据库的高效去重。 把所有爬过的url都放在redis中,以后每次爬取链接之前,先把url添加进去,如果能添加进去,说明是没爬过的,如果添加不进去,说明该链接有爬取过。 ###方法1 普 阅读全文
posted @ 2021-08-26 18:10 莫贞俊晗 阅读(531) 评论(0) 推荐(0) 编辑