搜索引擎的现实问题和发展新视点
来源:新浪科技 2009百度技术创新大会搜索技术趋势论坛
主持人:尊敬的各位来宾,女士们、先生们,大家下午好!欢迎大家来到分会场的现场,我是来自百度技术部的主持人张博。本场主题是:搜索技术趋势,我们将会 听到最新的研究理论,相信这是一场搜索引擎爱好者期待已久的视听盛宴,首先,让我们欢迎百度公司的CT0李一男先生为论坛致辞!
李一男:各位来宾下午好,非常高兴大家来参加搜索引擎技术的讨论会。今天上午的演讲里面,大家已经看到了关于搜索引擎未来发展的趋势,以及百度在“框计 算”上面所做的创新和成绩。今天下午我相信各位与会者将会更深入的了解在网页搜索以及搜索引擎的进一步的发展。作为百度公司,我们最核心的业务就是在搜索 引擎和网络搜索方面所做的工作。可以看到,在过去的10年内,虽然搜索框本身的页面形式没有发生变化,但是实质的内容已经发生了变化。我要查找的内容,用 户的搜索引擎,以及搜索引擎实质的内容已经发生了变化。今天,当用户输入超过10个字以上的词语搜索比例已经占到了17%,甚至更高的比例。所以用户已经 相信搜索引擎越来越好,同时为搜索引擎提供越来越高的要求。
那么作为百度,我们不仅仅提供简单的网页搜索,今天上午大家也看到了,还有各种各样新的展现形式,包括更多的自然语言的处理,包括更加开放的接口,和第三 方应用的调用,以及百度各种成熟的社区产品,包括地图、贴吧,还有其他论坛类的,像百科和知道等内容。今天上午大家已经知道了百度的阿拉丁开放平台,这样 一个开放平台也是我们和广大网民企业以及各种共同努力,一起发掘“暗网”,提供更多的更高质量的信息的重要来源之一,预祝今天下午能够取得圆满的会议,谢 谢。
主持人:感谢一男的精彩支持,今天上午第一场的演讲题目是:搜索引擎的现实问题和发展新视点。为我们演讲的是百度首席产品设计师孙云丰。孙云丰先生04年进入百度后,一直从事搜索引擎相关的用户需求分析和产品设计工作,下面我们掌声请出云丰。
孙云丰:大家下午好,我是孙云丰。我今天下午演讲的内容主要是从用户需求的角度,来介绍一下搜索引擎目前面临的一些主要问题,以及我们对于解决这些问题目前的一些新视点,现在秀几个数据。
这张图是过去十年,中文互联网,中文用户的增长情况。大家可以看到,从2000年1月份,到2009年7月份,这个中文互联网用户大概增长了38倍。而这 个数据是中国互联网过去十年的网站数量的增长情况,我们大家可以看到,这个数量大概是增长了20倍。那么这两个图的趋势是非常相似的,大家可以看一下。再 看一下第三张图,这个图是SE做的统计,04年第四季度,到09年第一季度,中文网页搜索次数增长了一个需求。根据百度的统计,从04年到09年,中文网 页搜索请求的次数增长了20倍,大家留意,是过去五年增长的20倍。
在这个搜索引擎市场飞速发展的过程当中,我们说这里面面临着什么样子的问题呢?接下来我来做一个解释。我小结了一下,主要是四个问题。
一:搜索需求的数量激素膨胀;
二:用户搜索需求满足方式的复杂化;
三:用户搜索行为越来越趋于“傻瓜化”;
四:互联网上的有价值资源获取难度越来越高。
现在来看一下搜索需求的越来越趋于多样化,根据我们的统计,从04年到09年过去的五年,中文网民搜索的数量大概增长了10倍左右,这个是三个问题,代表 的是过去的若干年中,有趣的用户形态。第一个问题代表的是06年开始发展的在线视频的搜索需求,这是一种新的信息载体。第二个就是看上去非常的长,这里边 体现了用户对于搜索引擎非常高的期望值,他希望搜索引擎解决的是非常复杂的问题,而这种问题用三两个关键词可能是解决不了的。第三个问题大家可以看到的是 非常奇怪的,这样的搜索结果是非常多的,他体现了用户对于搜索引擎的一种新希望,这种希望是什么呢?我希望搜索引擎给出一种智能类的决策,而不是简单的给 我返回几个关键词匹配的结果。那么这样子的需求实际上已经超出了传统的搜索引擎所解决的问题的范畴。
接下来看这三个问题,这三个问题用户所要找的就是同一个问题,就是日全食发生的时间。第一个问题的需求表现的是不完整的,他没有时间的关键词。那么第二个 问题实际上是一个景点的表述。第三个问题就是自然语言类的表述,他直接把搜索引擎当作了一个自然人,向搜索引擎做出了提问,这是更多的需求。
第三方面就是搜索引擎现在大家知道,是平台多样化的问题,从2009年以来,3G现在已经成为一个热点了。这样的情况下面,不同的平台上面,用户的搜索需求是不一样的,今天下午是一个专门的论坛,这边就不仔细的展开了。
那么面临的第二个大的问题是什么呢?我们称之为用户搜索需求满足方式的极度的复杂化。我们看一下过去是什么样子的,过去用户的搜索需求满足的方式实际上是 非常的简单的,那么这里边我列了两个例子,第一种是网址类查询,在过去的五年当中,这个比例下跌了大概是一半,从30%下跌到15%左右。
第二个例子是什么呢?过去用户的搜索需求并不高,经常是一些景点的匹配就可以满足用户的需求了。举个例子,降龙十八掌第一掌是什么?我们给出一个结果就可 以了。到现在面临着什么问题?现在的趋势很复杂。搜索只是用户需求满足过程当中一个必要的环节,而不是最关键和唯一的环节,以购物需求为例,用户是要买到 这个商品,消费这个商品,这个时候他才得到了他想要的东西,而搜索在这个过程当中,我不管是寻找这个商品还是了解相关的价格,还是了解相关的商家,这个过 程当中,他只是在需求满足过程当中的前奏环节。那么后边的话可能有支付,可能后面还有物流,还有售后。如果这些问题都产生的问题的话,他都会导致用户的需 求最终没有得到满足,在目前我们的搜索需求当中,这样的比例越来越高。
第二个,我们留意到从过去用户对于整个搜索结果的时效性的要求越来越高。那么在过去,大家把一个互联网当作了一个静态的数据库,所以对时间的要求并不是很 高,但是随着这个搜索引擎越来越为大家生活当中的一部分的话,他们对这个期望值越来越高,就是现在发生的事情,我马上就要通过互联网了解到这个事情是怎么 回事。
举个例子,前阵子湖南卫视做的快女节目,其中一个选手叫曾轲可,她被PK下去的时候,她说她想骂人。电视节目发生的时候是零点45分,在零点46分的时候,网上就有网友问她想骂谁,只有一分钟而已。
第三个典型的问题是 什么?对于搜索结果需求满足的要素,他需要一个全方位的要求,而不是单独的一个方面。全方位构成了整体需求的满足。举个例子,比如说招聘需求,就是用户在 搜索引擎当中寻找一个职位,比如说Java程序类,那么仅仅把职位信息提供给用户是不够的,那么这个用户的潜台词是什么呢?他的潜台词需要知道我这个职位 的时间是不是最新的,他是去年的招聘职位还是前年的招聘职位,还是上一个月的招聘职位。他还想了解到我想找的这个职位地点是在北京还是在上海,他实际上是 有一个潜意识的,那么你给出来的东西是不是符合他的要求。
第三个问题,比如说他对于这个薪水实际上是有潜意识的认知的,比如我现在就要求5千块钱的月薪,那么你给的这个机会到底是多少月薪呢?他这些东西都不会体现在问题当中的,那么我们如何对这个用户进行全方位的满足,这是我们面临的一个问题。
第四个我提到的一个问题是什么呢?就是多元的信息的表现元素。这个谈到了什么问题呢?我们知道搜索引擎在过去的问题是,不管是文字的问题还是文字的摘要, 为用户提供信息的指引。但是现在用户的需求是不局限于此的,不管是图片、视频、Flash还是人际交互的元素,越来越体现在搜索引擎,他们都对搜索引擎起 到了非常关键的影响。
那么第三个问题是我叫他叫做搜索行为的傻瓜化。说道这个问题,我想说在很久以前,大概五六年以前,我刚刚加入百度的时候我希望现在的搜索引擎很强大,我们 是不是能够借助于教育用户,使得用户能掌握精神的搜索技巧,使得他们的搜索体验能够得到更高的满足呢?当然我们努力了一阵子后来我们放弃了,我们发现这个 东西是逆势潮流。我们现在发现的潮流是用户越来越倾向于用他们自己直接想到的词搜索,他们不会多加思考。我们所想象的那种说是非常精妙的关键词构造,一击 命中的行为在用户当中非常的少见。
举几个例子,这个例子的话,我称它为“能减则减”“123”,用户123他们到底想做什么,实际上要找的是网址导航网站“hao123”,他把“hao” 给省略掉了,只打“123”。第二个意思非常有意思,文科女为什么要瞧不起工科男,很有意思,他把搜索引擎当做一个自然人,直接向搜索引擎发出提问,这样 的比例越来越高。第三个问题越来越长,不管是什么原因导致的,总的来说用户搜索的形式越来越多,越来越复杂,这里面一共是25个汉字,这样的形式在我们的 比例里面比比皆是。
接下来分享一个数字,这个是我们对网页搜索的长度进行了一下简单的分类,左边的两个数据是从搜索次数来讲,右边的两个数据是从问题来讲,大家可以看到,在 整个的数据查询当中,他们占到了大概50%,而搜索次数角度大概占到了将近30%,可想而知,我们现在所面临的需求处理的复杂化是非常复杂的。
接下来是第四个问题,有价值的资源,他的获取难度越来越高。那么在过去的话,整个的互联网这种网站结构是扁平的,互相之间链接,静态页面链接,非常简单。 我这个只要用经典的方式爬,总能够爬回来,但是现在非常的复杂。他使得网站的结构非常的纵深,并且那些链接的构成,既有功能链接,还有很多由于系统程序的 原因导致的垃圾链接,这样的情况下,一个需求如果陷进去的话,基本上有的时候有走投无路的感觉。那么第二个问题是现在很多平台型的网站,这些网站很多的数 据都是相对的孤立的,我们找不到一条线给串起来。比如PSP平台的Blog,或者是类似校内网,这些页面之间实际上是没有关联的,相对独立的。
第二部分就是面临的获取难度,就是我们一般所谈的“暗网”,我把“暗网”分成了四个部分,第一个部分是网上存在,但是没办法获取。就像写反的查询,这个数 据的话,我们是没办法获取,因为要收费。第二个问题是网上公开,但是非常难以获取的,这个是我们常说的一种经典的,像北大的图书馆的数据,他是公开的,你 也可以查的,但是搜索引擎是非常难以获取的。那么第三个问题,我们经常说的现实中存在,但是没有上网,如果有一个数字图书馆的计划,按照我的理解,他们现 在做的就是这一块,如何把现实当中存在的信息给数字化。
第四个问题更为庞大,人脑中存在的问题,仍然没有记录下来。我们可以想象一下,整个互联网我们现在可以看到的信息,和我们每一个人里面如果所有的信息加起 来,这里面的参考因素,我们如何把用户大脑当中的信息给挖掘出来,把他给显性化,并且呈现给其他人,这是我们面临的很困难的问题。
刚才前面的话简单的就是列了四方面的问题,需求的膨胀,需求满足的方式复杂化,用户搜索行为的傻瓜化,自由获取的难度。这里面我简单的列了一下,就是搜索 引擎,就是针对这些问题我们所能想到的一些新的视点,这些新的视点有一些可能也是老生常谈,比如自然语言的处理。但是到了搜索引擎发展到这个阶段之后,这 些经典的问题,他们又重新焕发了青春。
第一个问题是我们认为搜索引擎接下来所要做的是什么呢?是精准的需求识别。我们知道,过去的搜索引擎做的只是一个文本的匹配,我们越来越觉得如何理解用户的需求背后真实的需求,这是我们面临的非常大的难题和挑战。
这里面列了两个需求,第一个是太平洋,第二个是很长的需求,第一个太平洋不是找地理上的太平洋,而是找太平洋网,第二个非常复杂。
第二个问题是关于自然语言处理的问题,因为我们现在看到,当搜索引擎有一个象牙塔里面的高级的系统,变成了普通用户的日常工具之后,他整个的表述都是非常 的口语化的,接近自然语言状态的。那么这个变成了用户检索当中的常态,这个时候我们应该对用户的语言做怎样的识别和处理,对我们是一个挑战,而且我们认为 这个问题接下来会越来越重要。下面是两个例子,大家可以看到,像这样的形式在我们整个搜索引擎面临的形式当中是比比皆是的,并且这样的比例是越来越高的。
第三个是丰富多彩的结果的呈现形式,我们认为为了满足用户的需求,在很多的时候,文字已经不足以能够对用户的需求产生合理的描述。经常我们说一张图片可以 代表千言万语,所以大家可以看到,现在搜索引擎当中,不管是图片的元素,还是视频的元素,还是用户互动的元素现在已经出现的越来越多了。这种元素的出现目 的不是为了丰富多彩,目的实际上是为了使得用户的需求能够得到更好的满足。
这里边有两个例子,第一个例子是把图片直接插入到结果当中,第二个是搜索引擎把人机交互的界面整合到的结果当中。
接下来一个问题是什么呢?当我们面临越来越复杂的互联网的时候,我们对于资源获取的方式是不是需要有一种新的调整思路?我们过去的话是从互联网上把所有的 东西抓进来,那么当我们不管是面临着越来越复杂的互联网结构,还是面临着一些我们原有的方式,无法解决的“暗网”问题,那么我们现在方式应该是什么样子的 呢?我们认为过去是把这样的资源拉进来,那么现在我们是不是有一种新的方式,我们通过和资源方有更多的合作,以及发布数据规范,把格式化的数据能够“推” 到搜索引擎这边来,实现数据的实时化,以及格式化的处理,实现更强大的搜索效果。
接下来一个问题,谈一下搜索社区。那么我知道,在很早以前,当一个搜索引擎谈到要做搜索社区的时候,在做一些经典的搜索技术的人员看来,这多少有一点“不 务正业”,那么在我们看来,搜索社区是什么样子的东西呢?我们认为,搜索社区实际上是搜索引擎认识到我们现在在互联网上的很多资源是稀缺的,我们在互联网 上获取不到,但是用户有迫切的需要这些资源,这个时候怎么办?要不然等,要不然自己创造。所以我们希望通过搜索社区构建这样的平台和机制,让用户帮我们把 这样子的稀缺资源建设出来。这个时候,他产生的是两种效应,第一种效应是这样的平台直接可以为用户的需求产生满足,比如现在的百度“知道”平台,用户可以 在“知道”当中问,有人回答,你的需求可以达到满足。还有一种情况,是你在“知道”当中可以检索,你的需求可以得到满足。但是更大的价值在于什么呢?在于 “知道”把它沉淀下来的知识,反扑给网页搜索引擎,从而使得搜索引擎的搜索效应得到更高的提升。那么百度其他的社区类搜索,不管是贴吧还是百科,思路都是 一脉相承的。
第六个观点,其实今天上午的罗米克已经提到了,他提到的是“框计算”的概念,我们认为搜索框的后面可以捆绑更多的东西,它能够实现更多的价值。下面那个图 就是简单的把罗米克上午说的逻辑框架重复了一遍。相当于未来我们期望这个搜索框不仅仅是一个搜索引擎的入口,它同时是其他的应用的入口。然后在这里边,它 能解决的问题是把用户的需求能够有一种智能的识别,并且分发给能够解决这个问题的最佳的应用方,然后使得用户的需求得到一个最好的满足。我们现在知道,现 在的话你填进去一个关键词,给出来的是700、800个结果,甚至是几十万个结果,真的需要这么多结果吗?不一定。所以这个也是我们另外的一种思路。
我今天的演讲完了,那么接下来的几位同事,我刚才的话只是抛砖引玉,把我们现在搜索引擎所面临的一些问题勾勒了一下,接下来几位技术专家,他们可能会就其中的一些问题做出一些精湛的阐述,谢谢。
主持人:感谢云丰对搜索引擎发展的深刻阐述。搜索引擎架起了人类通向知识的桥梁,