爬虫总结
爬虫模块
- urllib
- requests
robots协议
- 防止爬虫爬取,只能防君子。requests模块没有使用硬性语法对该协议进行生效
- scrapy硬性的语法对该协议进行了生效,需手动开关
处理验证码
- 云打码平台(付费)
- 打码兔(付费)
数据解析方式
- 正则
- xpath
- bs4
如何爬取动态加载的页面数据
- selenium
- ajax,抓包工具抓取异步发起的请求
有哪些反扒机制
- robots协议:关闭尊崇robots协议
- UA:UA池
- 封IP:proxy池
- 验证码:打码平台
- 动态数据:selenium或ajax动态请求
- 加密数据:尝试解码
- token:动态解析
scrapy中接触过几种爬虫的类
- Spider
- CrawlSpider:提供链接提取器,规则提取器
- RedisCrawlSpider
- RedisSpider
如何实现分布式流程
- 基于RedisCrawlSpider和RedisSpider。需安装scrapy-redis