如何拦截伪蜘蛛、假蜘蛛

伪蜘蛛是指爬虫爬行网站时带有搜索引擎标签，但却不是真的搜索引擎IP，也称为假蜘蛛、伪爬虫、假爬虫。

伪蜘蛛用于哪些场景呢？

伪蜘蛛一般用于采集比较多。例如站群服务器，伪造蜘蛛全网采集网站数据，再转换输出给浏览者。同时随着AI的发展，很多AI公司也会以伪蜘蛛的方式收集数据用于大模型训练。也有一些不法分子，采用伪造蜘蛛的方式扫描网站漏洞，让管理员不敢贸然屏蔽他们的恶意IP。

伪蜘蛛有哪些危害呢？

如果只是为了采集网站数据的伪蜘蛛，并不会带来安全问题，主要消耗带宽、CPU等资源，严重时可导致网站无法正常使用。但可能产生另外一个严重后果：导致网站被降权。站群服务器都是采集其他网站数据转化为自己的数据让搜索引擎收录，再将搜索进来的用户导流到主网站。因为内容和你的相同，就会对源网站的搜索引擎排名有所影响。

网上防护伪蜘蛛的方式及缺点

网上有一些拦截伪蜘蛛的方式，大体思路都是通过分析网站日志，找出带有蜘蛛标签的IP，再通过nslookup命令检查此IP是否属于蜘蛛。

这种方式大部分情况下没问题，但有如下缺点：

1、事后拦截，有滞后性，会放行一些伪蜘蛛访问（不过总体影响不大）

2、只对nginx有效，那IIS、Apache怎么办呢？

3、使用CDN的网站会被误封。因为获取到的蜘蛛IP全是CDN节点IP，肯定不属于搜索引擎，导致全部误杀。

4、有些搜索引擎的蜘蛛不支持nslookup检测（如360），也会导致全部误判。

百度蜘蛛检查结果，支持nslookup