摘要: windows下安装 下载地址:https://github.com/MSOpenTech/redis/releases Redis 支持32位和64位,这个需要根据你系统平台的实际情况选择,这里我们下载 Redis-x64-xxx.zip压缩包到 C 盘,解压后,将文件夹重新命名为 redis。 阅读全文
posted @ 2019-03-05 22:03 小白° 阅读(148) 评论(0) 推荐(0) 编辑
摘要: 一.redis简介 Redis是完全开源免费的,遵守BSD协议,是一个高性能的key-value数据库. Redis与其他key-value 缓存产品有以下三个特点: - Redis支持数据的持久化,可以将内存中的数据保存在磁盘中,重启的时候可以再次加载进行使用. - Redis不仅仅支持简单key 阅读全文
posted @ 2019-03-05 21:51 小白° 阅读(156) 评论(0) 推荐(0) 编辑
摘要: 引言: 当我们在浏览相关网页的时候会发现,某些网站定时会在原有网页基础上更新一批数据,例如某电影网站会实时更新一批最近热门的电影.小说网站会根据作者创作的进度实时更新罪行的章节数据等等.哪么,类似的情景,当我们在爬虫的过程中遇到时,我们是不是需要定时更新程序一遍能爬取到网站中最近更新的数据呢? 一. 阅读全文
posted @ 2019-03-05 16:08 小白° 阅读(464) 评论(0) 推荐(0) 编辑
摘要: redis分布式部署 1.scrapy框架是否可以自己实现分布式? - 不可以.原因有二. * 其一: 因为太多台机器上部署的scrapy会各自拥有各自的调度器,这样就是的多台机器无法分配start_url列表中的url.(多台机器无法共享同一个调度器) * 其二: 多台机器爬取到的数据无法通过同一 阅读全文
posted @ 2019-03-05 14:30 小白° 阅读(296) 评论(0) 推荐(0) 编辑
摘要: 一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能之外,还派生了其自己独有的更强大的特性和功能.其中最显著的功能就是"LinkExtractors链接提取器".Spider是所有爬虫的基类,其设计原则是为了爬取start_url列表中网页,从而爬取到网页 阅读全文
posted @ 2019-03-05 13:38 小白° 阅读(362) 评论(0) 推荐(0) 编辑