绕GOOGLE防抓取搜索结果的方法

用蜘蛛去抓GOOGLE的搜索结果如果太频繁可能会被封,并转向到一个警告页,只有在警告页输入水印中数字才可以继续访问。以前想的是用COM调IE抽链接的方法应该不会触发GOOGLE的封禁,但实际上这个过程GOOGLE是给客户端设置一个session,蜘蛛被封后只要再带上这个session也不会再被封了。

HTTP/1.1 200 OK
Set-Cookie: GDSESS=ID=6ac6ad6014e083ee:EX=1262610659:S=fCqSb-MuRgE2WB9x; path=/; domain=google.cn
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Location: http://www.google.cn/search?hl=zh-CN&source=hp&q=xss&btnG=Google+%E6%90%9C%E7%B4%A2&aq=f&oq=
Date: Mon, 04 Jan 2010 10:10:59 GMT
Content-Type: text/html; charset=UTF-8
Server: GCS/1.0
X-XSS-Protection: 0
Expires: Mon, 04 Jan 2010 10:10:59 GMT
Content-Encoding: gzip
Transfer-Encoding: chunked

PS:暂时还不知道GOOGLE是靠什么机制分析非正常请求的,浏览器类型?COOKIE?请求频度?毕竟大型的应用要顾及各类用户,使用session防spam也是比较合适的了。

posted @ 2010-09-30 10:20  wingle  阅读(468)  评论(0编辑  收藏  举报