李彦宏15年前搜索专利曝光:谷歌创始人拾惠(转)
转自:http://www.opengpu.org/forum.php?mod=viewthread&tid=5307
位于弗吉尼亚州的美国专利局总部档案库的一角,存放着几页看似毫不起眼的纸张。但如果拿出去拍卖的话,这几页纸将价值连城。因为其上记载着的,或将是全球最值钱的技术专利之一,正是它,催生并且支撑起了一个市值近600亿美金、位列全球市值第三的互联网公司——百度。
李彦宏和他的“超链分析”
人们今天使用的搜索其实已经非常智能,搜索结果按相关性排列有序,甚至可以根据用户历史记录进行个性化定制。但在九十年代中期,还没有真正意义上的搜索引擎,搜索结果冗杂,如何识别网站质量、防止作弊成为了一个难以突破的技术瓶颈。
彼时,28岁的的李彦宏正在道-琼斯公司担任高级技术顾问,他已经牵头开发了《华尔街日报》网络版实时金融信息系统,这也是全球第一个网络实时金融信息系统。当时每天有15万条资讯,如此海量的信息,用户很难快速找到自己想要的信息,迫切需要一种快速准确的检索技术来化解这样的难题。
李彦宏在思索如何解决搜索准确性技术时,突然想到,自己在北大所学的科技论文索引方法。“科学论文通过索引被引用次数的多寡来确定一篇论文的好坏,超链就是对页面的引用。”李彦宏回忆,“超链上的文字就是对所链接网页的描述,通过这个描述可以计算出超链和页面之间的相关度。”
这让李彦宏非常兴奋,他立即反复论证这一理论并整理成稿,1996年正式提出“超链分析”概念并发表了相关文章,1997年2月申请了专利——“超链分析技术”(Hypertext document retrieval system and method,专利号5,920,859)。超链分析技术的发明,一改互联网搜索杂乱无章、信息冗余的局面,使搜索效果大幅提升。
在一次学术会议上,李彦宏请时任Infoseek CTO威廉•张观看超链分析的实践。李彦宏输入chinatimes,排在第一位的就是中国时报的网站,再搜IBM,IBM官方网站排在第一。威廉•张惊呼:“任何一个流行的搜索引擎都做不到。”
值得一提的是,李彦宏的超链分析中特别指出了不同文字链接的关联性,这种思想前瞻性地预言:未来不同语种搜索引擎可能将在主要技术上不尽相同。现在,这种预言已经成为现实,目前中文、英文、俄文、韩文等区别较大的语系已经有各自不同的搜索引擎,虽然技术体系各有千秋,但其本质与超链分析却都有千丝万缕的联系,例如Google。
往事揭秘:佩奇和布林或受李彦宏启发
中国古代文人墨客以文会友,常会彼此称呼“一字师”,即对方的一个字给予自己巨大的启发和灵感。在互联网世界,百度创始人李彦宏其实是Google创始人拉里•佩奇(Larry Page)和塞尔吉•布林(Sergey Brin)的一言师。
前谷歌中国区总裁李开复曾在微博中提及,李彦宏和佩奇等三人是搜索引擎排序算法的最早的提出者。但他也许不知道,在李彦宏和佩奇之间,还有一段鲜为人知的往事。
1997年2月李彦宏提交了超链分析的专利申请;1998年4月李彦宏赴澳大利亚演讲搜索前瞻技术,其中听众席上就有佩奇和布林;1998年10月Google上线,同年申请了PageRank的专利,但由于Pagerank与李彦宏之前申请的超链分析专利具有相似性,美国专利商标局2001年9月才获准了PageRank专利申请。
根据曝光的李彦宏论文,超链分析(ESP)技术的本质是一种“投票”机制,一个链接可以看作一个网页对另一个网页的投票,票数决定排序。除了基本的投票机制,该技术还具有两方面特征:将链接文字作为重要信息加以利用,使搜索引擎更准确地理解目标网页的内容,从而有效地提高了搜索结果的相关性;根据投票者自身的权威性、推荐方式等属性调整投票权重,从而有效地提高了搜索结果的权威性。
李彦宏的超链分析为现代搜索引擎发展指明了趋势和方向,标志着互联网搜索引擎进入了快速发展时代。而李彦宏相关超链分析的论文也被各种研究大篇幅引用,至今超链分析已被211件国际专利引用,并被世界各大搜索引擎普遍采纳。打个比方就是,超链分析搭起搜索新平台,其他人借助这个新平台衍生个性化的发展。
在1997至2000年间,李彦宏对自己的超链理论也通过论文著作逐步解析和完善,先后在IEEE(美国电气与电子工程师协会)刊物上发表,并不断在互联网搜索领域研究新的解决方案,随后李彦宏的新技术发明又申请了数项专利。1999年底,李彦宏回到祖国,创建中国人自己的搜索引擎公司——百度。如今,百度成长为全球最大的中文搜索引擎及最大的中文网站,超链分析功不可没。
在李彦宏率领百度拿下中国八成搜索市场份额时,很多人认为是卓越的商业管理才能成就了李彦宏和百度,但在李彦宏看来,对搜索技术的专注和创新,才是百度成长的关键。他说:“在中国,无声的不是管理,是技术。太少人真正关心技术的进步,太多的人醉心于把管理当战争。