摘要: 一、接触过几种爬虫模块? urllib,requests 二、robots协议是什么? 规定哪些数据不能爬取,防君子不防小人 request模块没有使用硬性的语法对该协议进行生效 scrapy框架中硬性的语法对该协议进行了生效 三、如何处理验证码 使用三方平台,如云打码、打码兔 四、掌握几种数据解析 阅读全文
posted @ 2020-06-01 17:43 南啾 阅读(170) 评论(0) 推荐(0) 编辑
摘要: 概念: 监测网站数据更新的情况,只会爬取网站最新更新出来的数据 分析: 指定一个起始url 基于CrawlSpider获取其他页码链接 基于Rule将其他页码链接进行请求 从每一个页码对应的页面源码中解析出每一个电影详情页的url 核心:检测电影详情页的url之前有没有请求过 将爬取过的电影详情页的 阅读全文
posted @ 2020-06-01 17:12 南啾 阅读(108) 评论(0) 推荐(0) 编辑
摘要: 概念:我们需要搭建一个分布式的集群,让其对一组资源进行分布联合爬取 作用:提升爬取数据的效率 如何实现分布式: 安装一个scrapy-redis的组件 原生的scrapy是不可以实现分布式爬虫的,必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫 scrapy-redis组件作 阅读全文
posted @ 2020-06-01 15:01 南啾 阅读(142) 评论(0) 推荐(0) 编辑
摘要: 全站数据爬取的方法 基于spider:手动请求 基于CrawlSpider CrawlSpider的使用: 创建一个工程 cd xxx 创建爬虫文件(Crawlspider): 指令 scrapy genspider -t crawl xxx www.xxx.com 链接提取器 LinkExtrac 阅读全文
posted @ 2020-06-01 13:10 南啾 阅读(172) 评论(0) 推荐(0) 编辑
摘要: 位置:middlewares.py文件中 一、爬虫中间件 二、下载中间件 1、位置:引擎和下载器之间 2、作用:批量拦截到整个工程中所有的请求和响应 3、拦截请求: UA伪装:写在process_request方法中 # UA池 user_agent_list = [ "Mozilla/5.0 (W 阅读全文
posted @ 2020-06-01 12:35 南啾 阅读(149) 评论(0) 推荐(0) 编辑