语义与搜索引擎

对话实录

来源:新浪科技

主持人:感谢云丰对搜索引擎发展的深刻阐述。搜索引擎架起了人类通向知识的桥梁,下面,将要为大家演讲的是北京大学的俞士汶教授。俞老现在在北京大学信息科学技术学院教授,计算语言学研究所学术指导委员会主席,组织参加了多个国家重点项目,发表论文140多篇,著作八本,得到了政府部门和北京大学的多项奖励和表彰,培养了近百名计算语言学领域的博士生和硕士生。他今天演讲的题目是语义与词义的计算研究,及其在搜索引擎中的潜在应用,有请俞教授。

俞士汶:各位来宾,大家下午好!我今天发言的题目是隐喻与词义的计算研究,及其在搜索引擎当中的潜在应用。内容有这么几点,首先看一下搜索引擎的现在情况,这个今天上午和刚才的报告都讲了,讲了搜索引擎跟自然语言的处理的关系。下面隐喻计算研究,词义自动消歧,和词义研究是主题部分,然后提一下自然语言处理的关系,最后发表一点感想。

现在大家都有一个习惯,有事情就百度一下。我自己也有收获,大夫给我注射灯盏花注射液,我不知道灯盏花注射液是什么,百度了一下,收到了立竿见影的效果。但是现在的搜索引擎也还不能尽如人意,譬如说有人问“鸡肋”是什么?给出了这样的答案,这样的老公不是鸡肋是什么。这样的回答似是而非,似非而是,叫人哭不得笑不得。

那么我们现在的搜索对象就是网页上的文字,网页的文字都是书面语言,书面语言是承载信息、知识和文化的,我们要搜索的实际上是它的内容,并不是这个文字的本身。现在搜索引擎的关键技术就是把网页用索引表达出来,然后查询的时候就把查询的关键词组合起来,看家本领就是字符串匹配。当然,我们自然语言处理技术跟基础技术,譬如说汉语的切分,另外在一起出现的词的贡献,这样的也用到,但是主要的都是字符串的匹配。

发展方向,今天上午的董事长跟刚才的几位技术主管都讲到了,就是要理解,要语义的理解,要行为理解,这样的话他就需要把内容进行索引,用户的意图进行理解。在这种情况下,我以为自然语言处理技术,特别是自然语言理解技术就有了用武之地。在这之前,当然也有不同的见解,比如有人认为自然语言技术在检索当中起不了多大的作用,投入很多,收效并不大。但是今天上午听了百度的几位先生的报告之后,倒增强了这方面的信心,感觉到处都看到他们对自然语言处理、理解这方面的技术加入和认识这个需求的增长。

我给出一个需求,查找“唐代描写战乱中牵挂亲人的诗作”,比如我打这样的需求进去,我试了一下,没有给出答案,可是我自己脑子里很容易想到这样的一些诗句:“打起黄莺倪,莫叫枝上啼”等,我想大家都能想得起来,但是互联网还实现不了。

要实现这些内容的索引,以及实现对用户意图的理解,需要计算机俱备理解自然语言的能力,这是非常困难的。主要的原因是自然语言表达的意义、内容跟自然语言表达的形式之间存在及其复杂的多对多的关系。譬如说“妻子”,可以说“妻子”,也可以说“夫人”,那诗里面啼时惊妾梦,妻也可以叫妾。这样的话,当我们应用的时候,在特定的环境下面,把复杂的多对多的关系,给确定下来,所以我们就要下很大的立起来消减自然语言的歧义。

自然语言分析要做的工作很多,比如“这样的老公不是鸡肋是什么”。表示的是这样的老公是鸡肋,但是“这样的老公怎么能说是鸡肋呢?”这句话的表示实际上表示的是这样的老公不是鸡肋。比如蛐蛐不是蝈蝈,那么丁是丁卯是卯,又不对了,这都是自然语言要理解的东西,但是这些东西太复杂,但是目前我们要的是词义消歧,可能最有用。“老公是鸡肋”,跟“老公不是鸡肋”都是隐喻的表达方法,如果计算机有隐喻的能力的话,那么对搜索还是很有价值的,我们下面集中讲一下隐喻的计算研究。

什么是隐喻?隐喻计算研究有哪些任务?用什么方法进行研究?举一个具体的实例,还有在搜索当中潜在的应用,以及这样做能不能做得到。

隐喻在我们语言的各个层次上面都有,比如说“老公是鸡肋”就是隐喻。甚至我们讲的搜索引擎这个本来就是一个隐喻。因为引擎是发动机,汽车里面、飞机上面有,我们网络搜索怎么有引擎呢?这实际上是一个隐喻。隐喻在人类语言表达当中离不开,那么我们的搜索当中当然也离不开。搜索计算研究的任务主要是三个,一个是识别,一个是理解,一个是生成,生成我们暂时可能是Web2、Web3将来的工作。那么我们现在主要是搜索的话,那就是识别跟理解。因为知识的海洋,我们要知道他的隐喻,“老公是鸡肋”,要知道他是隐喻,这样对搜索就很有价值。

那么方法无法是两种方法,因为自然语言处理只有两个“拳头”,一个是基于微机的方法,一个是统计的方法。微机的方法很好理解,比如“这个人是一个狮子”,我们不知道是什么意思,“这个人是一个狐狸”,也不知道是什么意思,“那是老公”,也不知道是什么意思。但是我们说“那个人像狮子一样勇猛”“狐狸真狡猾”,这种我们就知道了,说这个人勇猛,说他是狐狸说他是狡猾,

另外统计的方法,提供大量的正面的例子,反面的例子,学习一个分类器,通过这个分类器来把这个区别开来。

我们的博士生2006年完成了一个博士生论文,叫汉语隐喻短语的识别研究。主要是像把知识的海洋,文献的海洋,这种隐喻的表达,跟国家的海洋资源,海洋生物的考察,这种能够分开。

下面我们讲一些计算的方法,这个今天就不讲了,题目大家可以参考。

那么隐喻在搜索里有没有应用呢?用途就是提高查准率,提高查全率,我做了一个实验,现在讲“金融风暴”,“金融海啸”,这个就是隐喻了,“风暴”并不是台风,“海啸”也不是真的海啸,指的都是金融危机。那么

那么这样的工作可不可做,另外翻译也是有问题的,因为翻译也是个发展方向,

那么有没有可能做呢?真正用隐喻的名词的话,大概也就有700多个,另外用户查询的话,隐喻区别不开,可以用交互式的方式。

那么这就是刚才讲的词义自动消歧如果做的好的话,对网页是有帮助的,不过是有困难的。当然了,再难也要研究,所以今年我的一个博士生毕业,他做的题目就是词义消歧关键技术研究,今年拿了博士学位。这篇论文主要的贡献是两点,第一个是环节数据稀疏,数据稀疏是非常严重的,第二个是统计语言学和统计模型结合起来。

下面我们讲一下词义消歧研究。词义消歧指的是辞典里面已经有几个词了,然后你在文本中决定它是哪一个词。

自然语言处理的话,必须有语言知识库的支持,语言知识库就是自然语言处理系统不可缺少的组成部分,语言知识库的规模和质量在很大程度上决定了自然语言系统的成败。北大开发的

由于时间的关系,我只能快速的讲一下。应用研究是基础研究的源泉,基础研究要面向搜索的

当然有一些技巧还是很有关系的,比如问电脑的价格如何,如果你上海龙大厦问这个问题的话,那一定是电脑。而现在的网页搜索引擎就知道你这个IP准确的位置,这个我也理解,你自然理解要有语境,要有上下文环境,这个环境不仅仅是文字的上下文,是你生活的环境,你所在的空间、时间都有关系。


posted @ 2009-08-18 15:29  911  阅读(816)  评论(0编辑  收藏  举报