爬虫反爬
反爬技术:
1. UA反爬:携带ua,构建有效ua池;
2. Ip限制:限制同一ip的访问频率,download_delay =8,代理ip;
3. 数据藏在js脚本:一般使用re提取数据;
4. ajax请求(动态数据):可以使用selenium或者pypepeer,但是效率太低,影响机器性能,
推荐直接访问接口获取数据。
5. 验证码:
1 数字+字母 验证码,opencv图像识别技术,打码平台
2 滑动验证码:...
6. js逆向:常见加密有md5,rsa(非对称加密),des(对称加密),base64编码,js混淆(sojson.v5);
7. 字体加密:找到字体与编码的映射关系表;
8. 数据编码问题:gbk,gbk2312,unicode,url编码,html特殊字符,以及混合编码问题;