反爬机制
robots 防君子不防小人
UA伪装 request 设置headers参数
ajax 动态数据json
图片懒加载 src2/origin
数据加密 js代码里面一些function 加密算法
验证码 云打码/超级鹰12306
cookie session会话
哈希值 xpath element 里面搜索
# 抓包工具 fiddler 青花瓷 anyproxy
#安卓手机连接fiddler 请看 https://www.cnblogs.com/bobo-zhang/p/10068994.html
网络配置/fiddler证书
基于手机数据一般就是json
https://www.bilibili.com/video/av46090991/?p=10
https://www.jianshu.com/p/7f2be7eed247 爬虫的增量式抓取和数据更新
# requests 的UA import requests res = requests.get('https://www.baidu.com') print(res.request.headers) #{'User-Agent': 'python-requests/2.21.0', 'Accept-Encoding': 'gzip, deflate', 'Accept': '*/*', 'Connection': 'keep-alive'}