2020 年 6月 1 日随笔档案 - 南啾

2020年6月1日

摘要：一、接触过几种爬虫模块？ urllib，requests 二、robots协议是什么？规定哪些数据不能爬取，防君子不防小人 request模块没有使用硬性的语法对该协议进行生效 scrapy框架中硬性的语法对该协议进行了生效三、如何处理验证码使用三方平台，如云打码、打码兔四、掌握几种数据解析阅读全文

posted @ 2020-06-01 17:43 南啾阅读(170) 评论(0) 推荐(0) 编辑

增量式爬虫

摘要：概念：监测网站数据更新的情况，只会爬取网站最新更新出来的数据分析：指定一个起始url 基于CrawlSpider获取其他页码链接基于Rule将其他页码链接进行请求从每一个页码对应的页面源码中解析出每一个电影详情页的url 核心：检测电影详情页的url之前有没有请求过将爬取过的电影详情页的阅读全文

posted @ 2020-06-01 17:12 南啾阅读(108) 评论(0) 推荐(0) 编辑

分布式爬虫

摘要：概念：我们需要搭建一个分布式的集群，让其对一组资源进行分布联合爬取作用：提升爬取数据的效率如何实现分布式：安装一个scrapy-redis的组件原生的scrapy是不可以实现分布式爬虫的，必须要让scrapy结合着scrapy-redis组件一起实现分布式爬虫 scrapy-redis组件作阅读全文

posted @ 2020-06-01 15:01 南啾阅读(142) 评论(0) 推荐(0) 编辑

CrawlSpider：类，Spider的一个子类

摘要：全站数据爬取的方法基于spider：手动请求基于CrawlSpider CrawlSpider的使用：创建一个工程 cd xxx 创建爬虫文件（Crawlspider）：指令 scrapy genspider -t crawl xxx www.xxx.com 链接提取器 LinkExtrac 阅读全文

posted @ 2020-06-01 13:10 南啾阅读(172) 评论(0) 推荐(0) 编辑

中间件

摘要：位置：middlewares.py文件中一、爬虫中间件二、下载中间件 1、位置：引擎和下载器之间 2、作用：批量拦截到整个工程中所有的请求和响应 3、拦截请求： UA伪装：写在process_request方法中 # UA池 user_agent_list = [ "Mozilla/5.0 (W 阅读全文

posted @ 2020-06-01 12:35 南啾阅读(149) 评论(0) 推荐(0) 编辑

南啾

公告