摘要: 分布式爬虫一.redis简单回顾 1.启动redis: mac/linux: redis-server redis.conf windows: redis-server.exe redis-windows.conf 2.对redis配置文件进行配置: - 注释该行:bind 127.0.0.1,表示可以让其他ip访问redis - 将yes该为no:protecte... 阅读全文
posted @ 2018-11-20 23:41 前海渔文乐 阅读(180) 评论(0) 推荐(0) 编辑
摘要: CrawlSpider提问:如果想要通过爬虫程序去爬取”糗百“全站数据新闻数据的话,有几种实现方法?方法一:基于Scrapy框架中的Spider的递归爬取进行实现(Request模块递归回调parse方法)。方法二:基于CrawlSpider的自动爬取进行实现(更加简洁和高效)。CrawlSpider一.简介 CrawlSpider其实是Spider的一个子类,除了继承到Spider的特性和功能... 阅读全文
posted @ 2018-11-20 23:17 前海渔文乐 阅读(165) 评论(0) 推荐(0) 编辑