爬虫总结

编辑本随笔

爬虫模块

urllib
requests

robots协议

防止爬虫爬取，只能防君子。requests模块没有使用硬性语法对该协议进行生效
scrapy硬性的语法对该协议进行了生效，需手动开关

处理验证码

云打码平台（付费）
打码兔（付费）

数据解析方式

正则
xpath
bs4

如何爬取动态加载的页面数据

selenium
ajax，抓包工具抓取异步发起的请求

有哪些反扒机制

robots协议：关闭尊崇robots协议
UA：UA池
封IP：proxy池
验证码：打码平台
动态数据：selenium或ajax动态请求
加密数据：尝试解码
token：动态解析

scrapy中接触过几种爬虫的类

Spider
CrawlSpider：提供链接提取器，规则提取器
RedisCrawlSpider
RedisSpider

如何实现分布式流程

基于RedisCrawlSpider和RedisSpider。需安装scrapy-redis

posted @ 2019-02-28 10:53 丫丫625202 阅读(120) 评论(0) 编辑收藏举报

刷新页面返回顶部