伪蜘蛛是指爬虫爬行网站时带有搜索引擎标签,但却不是真的搜索引擎IP,也称为假蜘蛛、伪爬虫、假爬虫。

 

伪蜘蛛用于哪些场景呢?

伪蜘蛛一般用于采集比较多。例如站群服务器,伪造蜘蛛全网采集网站数据,再转换输出给浏览者。同时随着AI的发展,很多AI公司也会以伪蜘蛛的方式收集数据用于大模型训练。也有一些不法分子,采用伪造蜘蛛的方式扫描网站漏洞,让管理员不敢贸然屏蔽他们的恶意IP。

 

伪蜘蛛有哪些危害呢?

如果只是为了采集网站数据的伪蜘蛛,并不会带来安全问题,主要消耗带宽、CPU等资源,严重时可导致网站无法正常使用。但可能产生另外一个严重后果:导致网站被降权。站群服务器都是采集其他网站数据转化为自己的数据让搜索引擎收录,再将搜索进来的用户导流到主网站。因为内容和你的相同,就会对源网站的搜索引擎排名有所影响。

 

网上防护伪蜘蛛的方式及缺点

网上有一些拦截伪蜘蛛的方式,大体思路都是通过分析网站日志,找出带有蜘蛛标签的IP,再通过nslookup命令检查此IP是否属于蜘蛛。

这种方式大部分情况下没问题,但有如下缺点:

1、 事后拦截,有滞后性,会放行一些伪蜘蛛访问(不过总体影响不大)

2、 只对nginx有效,那IIS、Apache怎么办呢?

3、 使用CDN的网站会被误封。因为获取到的蜘蛛IP全是CDN节点IP,肯定不属于搜索引擎,导致全部误杀。

4、 有些搜索引擎的蜘蛛不支持nslookup检测(如360),也会导致全部误判。

 

百度蜘蛛检查结果,支持nslookup

(图一:百度蜘蛛检查结果,支持nslookup)

 

 

360蜘蛛检测结果,不支持nslookup

(图二:360蜘蛛检测结果,不支持nslookup)

 

 

如何快捷有效的拦截伪蜘蛛呢?

要有效拦截伪蜘蛛,只有一个办法:收集蜘蛛IP库,拦截不在库的蜘蛛IP。

我们可以使用《护卫神.防入侵系统》的“伪蜘蛛防护”模块轻松解决此问题(如下图三)。

 

伪蜘蛛防护

(图三:伪蜘蛛防护)

 

护卫神.防入侵系统内置丰富的蜘蛛IP库;不分析网站日志,爬虫爬行时直接和蜘蛛IP库库比对,事前拦截无遗漏;自带CDN穿透功能,即使使用了CDN也不受影响; IIS/Apache/Nginx均可使用;360搜索引擎也不受影响。

使用“宽松”模式,自带学习算法,对于新增的蜘蛛IP,也能智能识别。

 

只需要选择蜘蛛类型,点击“确定”就可以开启防护,是不是比网上的其他办法简单多了?如果你也遭遇伪蜘蛛问题,赶紧使用此方法拦截吧。拦截效果如下图四:

伪蜘蛛拦截效果

(图四:伪蜘蛛拦截效果)

 

原文:https://www.hws.com/help/tech/1820.html

posted on 2024-12-06 13:37  护卫神  阅读(5)  评论(0编辑  收藏  举报