搜索引擎, 请手下留情

     今天凌晨1点左右, 在进行一个晚上的性能优化后,准备睡觉时, 我突然想:这么晚了,看还有哪些忠实的用户在访问博客园?打开性能监视器,Current Connections竟然有200-300, 高的时候会达到400左右,这么晚了还有这么多用户,我有点怀疑,是不是有什么软件不停地在爬网站的数据, 而且Current Connections一直在200以上,有必要记录一下这些访问来自何方?
     连续一个多星期的奋战已经让我很累,真想早点睡觉,明天再说。可是如果明天白天进行处理,会对网站的运行带来更大的影响,而且网站的性能问题一定要尽快解决,不能再拖下去了。这时,我心里已经在猜测搜索引擎可能是很大的嫌疑对象。
     于是,我打起精神,写了点代码,记录所有访问博客园的客户端IP地址及UserAgent。在记录的过程中,我就发现果然有搜索引擎在不停地访问博客园,进行了半小时的记录后,我对记录数据进行了分析,大家先看看数据:
     测试时间:1:05-1:35
     最大访问来自(UserAgent):sohu agent
     访问次数:8439
     平均每分钟访问次数:287

     好狠的搜索引擎!在肆无忌惮地爬博客园的数据,难怪这么晚还有那么多链接。如果它整天都在这样爬博客园的数据, 那对网站的性能会带来很大的影响,它也许是博客园最近性能问题的凶手之一。没办法,为了网站性能,只能对这样的搜索引擎说“不”,我立即修改代码,拒绝了这个爬虫(sohu agent)! 效果要到早上上班才能看出来。
      今天早上,为了防止还有其他疯狂的爬虫,我又对网站访问进行了记录,对记录数据进行分析后又发现了一个疯狂的爬虫:

     测试时间:7:19-7:30
     最大访问来自(UserAgent): Mozilla/5.0 (compatible; Yahoo! Slurp; http://help.yahoo.com/help/us/ysearch/slurp)         
     访问次数:2906
     平均每分钟访问次数:264

     继续对它说“不”,拒绝它对博客园的访问。
     你可能要问:Google是 爬虫的情况怎么样?在记录数据中,Google排名第二,但访问次数不多,只有459, 少好几倍。
     虽然这样的分析数据不全面,但对于搜索引擎来说,这样疯狂爬一个网站的数据是不妥的。当它在疯狂地吸取一个网站的数据时,是否考虑会给对方造成影响。Google网站上有这样的说明:“对大多数网站来说,Googlebot 的平均访问频率不会高于数秒钟一次。” 看来Google还是考虑到这个问题了。而发现的这两个疯狂的爬虫,竟然达到了4次/秒。如果它们不停地这样访问一个网站,一般网站的性能会很受影响。看来,博客园最近的性能问题的罪魁祸首可能就是它们了。
     拒绝了这两个爬虫(sohu agent与Yahoo! Slurp) 对博客园的访问后,从早上到现在的网站运行情况看,网站性能有了明显的提高,CPU占用明显降下来,平均只有50%, 前几天,CPU占用率几乎就是一条直线。
     现在,垃圾广告、垃圾邮件是互联网很头疼的问题,也许以后“垃圾爬虫”也会加入它们的行列。  
     博客园的性能问题是否能真正解决,还要看今天一天网站的运行情况,希望今天晚上能睡个好觉。 

posted @ 2005-10-27 10:33  dudu  阅读(5515)  评论(83编辑  收藏  举报