爬虫总结

编辑本随笔

爬虫模块

  1. urllib
  2. requests

robots协议

  1. 防止爬虫爬取,只能防君子。requests模块没有使用硬性语法对该协议进行生效
  2. scrapy硬性的语法对该协议进行了生效,需手动开关

处理验证码

  1. 云打码平台(付费)
  2. 打码兔(付费)

数据解析方式

  1. 正则
  2. xpath
  3. bs4

如何爬取动态加载的页面数据

  1. selenium
  2. ajax,抓包工具抓取异步发起的请求

有哪些反扒机制

  1. robots协议:关闭尊崇robots协议
  2. UA:UA池
  3. 封IP:proxy池
  4. 验证码:打码平台
  5. 动态数据:selenium或ajax动态请求
  6. 加密数据:尝试解码
  7. token:动态解析

scrapy中接触过几种爬虫的类

  1. Spider
  2. CrawlSpider:提供链接提取器,规则提取器
  3. RedisCrawlSpider
  4. RedisSpider

如何实现分布式流程

  1. 基于RedisCrawlSpider和RedisSpider。需安装scrapy-redis
posted @ 2019-02-28 10:53  丫丫625202  阅读(120)  评论(0编辑  收藏  举报