spider爬站极度损耗站点流量 - 秦瑞It行程实录

公告

或许部分站长遇到过这样的情况，Baiduspider对一个网站的抓取频率要远高于新内容产出速度，造成了N多的流量被蜘蛛占用。

这样的情况一般是针对小站，因为大站访问量很大，蜘蛛对服务器的频繁访问不会有什么样的影响。但是对于小站而言，如果蜘蛛去爬得很频繁，就会造成很多流量资源的浪费，而且很多小站都是有IIS限制的，这样的情况发生后对于用户体验也会产生很大的影响，因为网站老久打不开。

   相信很多站长都有遇到过这样的问题，一般产生这样的原因有下面几种原因。

   一、其他程序冒充Baiduspider程序去抓取网站内容。

   二、网站程序产生的漏洞，产生了很多无穷尽的url，被百度Baiduspider当成了很多新内容而频繁的抓取。

   出现的这些问题，都有哪些解决方法呢？
对于出现的第一种情况，建议在linux下用host ip命令反解ip来判断Baiduspider的抓取是否冒充，Baiduspider的hostname以*.baidu.com的格式命名。

   对于出现的第二种情况，建议分析网站的访问日志，看看 Baiduspider所抓取的内容是否是你想让百度收录的，如果不是则建议修改网站程序或者用robots协议禁止Baiduspider抓取这部分内容。

   当网站经常访问速度慢，但流量却不是很高的时候，我们可以从蜘蛛的访问日志下手，分析下Baiduspider留下的痕迹，或许问题就出在这里。


   但是，现在网站的程序都是很完善的了，一般以第一种原因居多。

posted on 2014-04-25 15:15 秦瑞It行程实录阅读(429) 评论(0) 收藏举报

刷新页面返回顶部

开源、架构、Linux C/C++/python AI BI 运维开发自动化运维。 春风桃李花 秋雨梧桐叶。“力尽不知热 但惜夏日长”。夏不惜，秋不获。@ruiY--秦瑞

公告

开源、架构、Linux C/C++/python AI BI 运维开发自动化运维。春风桃李花秋雨梧桐叶。“力尽不知热但惜夏日长”。夏不惜，秋不获。@ruiY--秦瑞