daresheep

重点关注web2.0/asp.net/php/ajax

[导入]百度跟谷歌在URI上处理的不同

今天上班的时候,老板给我发了个地址让我看,是我做的网站的,结果打开的时候,发现弹出一个窗口提示 没有找到符合的内容,经过检查,发现,在谷歌的地址上写着一个URI上面带有中文参数,
经过检查,发现谷歌在处理带中文的uri的时候,采用的是 UTF8 的编码,也就是说。相同的文字,
比如 说“网址通”,在谷歌上的编码就是
%E7%BD%91%E5%9D%80%E9%80%9A
这么一段,
到 百度上 以后,百度 可能这方面做的稍微好一些,
他给这段URI编码为
%CD%F8%D6%B7%CD%A8
采用的是页面的编码,也就是说。他是用页面编码来编码URI的。
所以,没有办法,页面需要修改,哎,程序还在思考中,不知道怎么办好。。。


这个问题,我前几天也遇到了,因为 公司要求我开发一个 仿照 baidu 的 搜索引擎,程序还在开发中,相信很快就能上线了~~
大致是采用 Lucene 核心加 蜘蛛,程序除Lucene和分词 之外,蜘蛛程序完全由我开发,累呀,好多问题,都没解决,目前情况,还有好多问题,比如多线程问题, 页面采集的URi处理,哎,真是问题多多呀````

Tags - uri编码
文章来源:http://www.urlt.cn/blog/read.php?20

posted on 2008-12-26 14:59  小盗  阅读(75)  评论(0编辑  收藏  举报

导航