02.爬虫知识结构归纳

做爬虫用python 要比 Java方便很多：

使用的第三方库（最底层的）：requests

自动化测试：selenium

框架：scrapy

其他的什么爬虫软件就算了吧...像什么八爪鱼之类的...

他们有着各自的优缺点，自行baidu了解！

我们在做一个爬虫时候，重要的不是先去编写代码，而是先去思考怎么去模拟用户的行为？

作为一个用户我们向服务器提交一个url 服务器对我们身份识别并且进行信息反馈

作为一个爬虫我们向服务器提交一个url 服务器对我们身份识别(被识别为爬虫) 不进行信息反馈

第二个：

做为一个用户我们向服务器提交一个url 服务器对我们的身份识别方式网页数据进行加密，网页进行渲染，用户行为检测，网站安全防护进行信息反馈

作为一个爬虫我们向服务器提交一个url 服务器对我们的身份识别方式(通过) 网页数据加密，渲染拿不到数据用户行为检测强制封停程序运行安全检测封禁不再进行数据反馈

第三个：

作为一个用户我们向服务器提交一个url 服务器要求用户做验证码认证，以进行身份识别成功则进行信息反馈

作为一个爬虫我们向服务器提交一个url 服务器要求爬虫做验证码认证，以进行身份识别爬虫在做验证码的过程中穿插用户行为检测失败则不进行信息反馈

简单说一下这些反爬的情况：

1.服务器检测是否为正常用户分为三点：

　　　　一.用户去请求一个web页面携带的user-agent 这是一个头部：里面包含着用户的信息

　　　　二.用户请求时所需要提供服务器指定的参数内容是否正确？

　　　　三.黑名单代理ip用户

2.简单参数加密JS：

　　　　我们作为用户去访问，不用去理会加密参数生成，他会有JS帮你运行

　　　　但是作为爬虫去访问，他的JS则不会帮你进行加密参数生成了

　　　　常见的加密方式 MD5 SHA DES AES base64 以及编码加密...

　　　　当然还有最让人头疼的自定义JS方法加密

3.Cookie检测：

　　　　Cookie就代表你的身份这里只稍做了解后续会专门说Cookie

4.验证码：

　　　　验证码一般分为：输入验证码滑动验证码点触验证码

　　　　解决方法包含三种：绕过验证码机器学习处理验证码第三方打码平台处理

5.网页渲染：

　　　　复杂的JS加密参数很难破解

　　　　解决方法两种：selenium模拟用户逆向JS强制破解参数加密

6.用户行为检测：

　　　　当你的程序达到了人达不到的高度时，服务器可能会对你进行封禁

　　　　解决办法两种：设置睡眠时间代理ip更换成为别的用户

结束

posted @ 2022-02-22 18:33 锋芒毕露的蜘蛛阅读(80) 评论(0) 编辑收藏举报

刷新页面返回顶部

Life is too short