2019年10月29日

摘要: 啥是增量式爬虫? 增量式爬虫就是爬取那些更新频率很快的网站,但是我们又不想每次都删库再建库,所以有了增量式爬虫。效果是将爬虫内容在数据库中进行判断,如果不存在则存入,存在则不存入的一个爬虫。 我们用什么数据库? 在这里我使用的是redis数据库,因为增量式爬虫的最主要核心就是去重,而redis中有s 阅读全文
posted @ 2019-10-29 09:32 请叫我山楂熊° 阅读(203) 评论(0) 推荐(0) 编辑
摘要: crawlSpider 作用于网站上有下一页和上一页的标签的内容,然后规则相同的网站进行爬取的效果 启动命令 : 1、创建项目文件 scrapy startproject 项目名称 2、cd 项目文件 3、创建爬虫 scrapy genspider -t crawl 爬虫名称 域名 语句作用: 1、 阅读全文
posted @ 2019-10-29 08:58 请叫我山楂熊° 阅读(97) 评论(0) 推荐(0) 编辑

导航