小陆同学

python 中文名:蟒蛇,设计者:Guido van Rossum

导航

简析爬虫、反爬虫、反反爬虫之间的抗衡

爬虫的类型分为:通用型爬虫、聚焦型爬虫。

通用型爬虫指的是搜索引擎,

聚焦型爬虫指的是针对哪家网站做针对性的爬取。

接下来分析一下其各自的手段和方法。

 

反爬手段:IP频率限制,在一定时间内对服务器发起较高频率的网络请求的IP。

                  用户信息,需要用户名密码及验证码的验证,

                  ajax异步请求,页面无刷新

                  投毒型,要a给b

                  诱捕型,多层级存储文件

爬虫:IP代理,IP池,降低频率,模拟用户信息,模拟浏览器,

 

由爬虫引出的反爬虫、反反爬虫之间不仅是各大公司财力的抗衡,也是优秀的爬虫工程师之间技术的较量,

robots协议(也称为爬虫协议、机器人协议等)的全称是“网络爬虫排除标准”       是个君子协议,内容写的是哪些信息可以爬取,哪些信息不可以爬取,爬虫工程师根据自己意愿选择是否遵守

posted on 2018-12-23 16:46  小陆同学  阅读(250)  评论(0编辑  收藏  举报