绕GOOGLE防抓取搜索结果的方法

用蜘蛛去抓GOOGLE的搜索结果如果太频繁可能会被封，并转向到一个警告页，只有在警告页输入水印中数字才可以继续访问。以前想的是用COM调IE抽链接的方法应该不会触发GOOGLE的封禁，但实际上这个过程GOOGLE是给客户端设置一个session，蜘蛛被封后只要再带上这个session也不会再被封了。

HTTP/1.1 200 OK
Set-Cookie: GDSESS=ID=6ac6ad6014e083ee:EX=1262610659:S=fCqSb-MuRgE2WB9x; path=/; domain=google.cn
Cache-Control: no-store, no-cache, must-revalidate, post-check=0, pre-check=0
Pragma: no-cache
Location: http://www.google.cn/search?hl=zh-CN&source=hp&q=xss&btnG=Google+%E6%90%9C%E7%B4%A2&aq=f&oq=
Date: Mon, 04 Jan 2010 10:10:59 GMT
Content-Type: text/html; charset=UTF-8
Server: GCS/1.0
X-XSS-Protection: 0
Expires: Mon, 04 Jan 2010 10:10:59 GMT
Content-Encoding: gzip
Transfer-Encoding: chunked

PS：暂时还不知道GOOGLE是靠什么机制分析非正常请求的，浏览器类型?COOKIE?请求频度？毕竟大型的应用要顾及各类用户，使用session防spam也是比较合适的了。

posted @ 2010-09-30 10:20 wingle 阅读(468) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部