WordNet简介
1. WordNet 概述
WordNet 是由美国普林斯顿大学认知科学实验室的George A Miller 教授所主持的一项知识工程项目,是一部采用基于关系的语义描述理论的在线词典数据库,该词典数据库旨在从心理语言学角度来建立英语词汇基本语义关系的实际模型。在WordNet 中,名词、动词、形容词和副词为主要词类,它们都用同义词集合( synonymoussets/synsets)组织起来。WordNet 用同义词集合(synsets)来表示词汇概念,并描述词汇矩阵,即在词形和意义之间建立起映射(mapping)关系(Miller,1993)。WordNet通过在同义词集合之间建立同义(synonym)、反义(antonym) 、整体(holonym) 、部分(meronym) 、上位(hypernym) 、下位(hyponym)等多种语义关系来把它们连成语义网。总而言之,WordNet就是由无数个网连成的一个庞大的语义网络。
2. Wordnet 设计原理
2.1 语言心理学
传统词典从来都是按字母顺序组织词条信息的,没有人怀疑这样的词典在解决用词和选义问题上的价值。然而。它们有一个共同的缺陷,就是忽略了词典中同义信息的组织问题。
20 世纪以来,语言学家和心理学家们开始从一个崭新的角度来探索现代语言学知识结构以及特定的词典结构。Miller 和Johnson – Laird(1976) 提出,与语言的词法元素有关的研究应该称做心理词汇学。随着近十几年来语言学理论的发展,以及心理语言学与认知科学的发展,心理语言学家们渐渐认识到,针对在日常用语及自然语言信息理解中包含的音位学、词法学、语法学、句法学、语义学等诸多要素,一部词典应该包括那些信息。在人的大脑中所储存的词汇知识,就象一部词典所载有的信息一样,也规定词的拼写形式和发音形式、词的意义;在普通词典中,用已知的词去定义一个生词,通过对意义的解释把语言和客观世界联系起来,在人的语义记忆中也需要表示这种词义及概念之间的关系,但是其组织方式又有所不同,词义的心理表征比普通词典的词义表示更为复杂。通过开始于本世纪初关于词的关系的研究,以及近几十年来心理学的研究,大量研究成果开始揭示出这种复杂的词汇语义关系,按照上述思想,Princeton 大学的一组心理词汇学家和语言学家于1985 年开始承担起开发一部词典数据库的任务,这就是Wordnet 。可以说,Wordnet 是一部基于心理语言学原理的词典。
Wordnet 目前有近95600 个不同的词型(51500 个简单词和44100 个搭配词) ,这些词组成70100 个词义(或者说同义词集合) 。它与其它标准词典最显著的不同在于Wordnet 将词汇分成五个分类: 名词, 动词, 形容词,副词和虚词。实际上,Wordnet 仅包含名词,动词,形容词和副词。虚词通常是作为语言句法成分的一部分,Wordnet 忽略了英语中较小的虚词集。
Wordnet 最具特色之处是试图根据词义而不是词形来组织词汇信息。从这方面讲,Wordnet 更像是一部语义词典而不是普通词典。按字母顺序排列的语义词典的问题在于词条的冗余性。如果单词Wx 和Wy 是同义词,这一对词就要登记两次,一次按字母排在Wx 的下面,一次在Wy 的下面。按主题排列
的语义词典的问题则在于需要两次查找,第一次查字母表,然后再查语义词典,这样用户就花了双倍的查找时间。
2.2 词汇的矩阵模型
词汇语言学起源于对词的认识“一个“词”是一个“词汇概念”与一个扮演某种文法角色的“词语”之间的一种形式上的联系。对于“词”的定义至少可以引申出三个问题:第一,与其具有词汇关联的词语都有那些? 第二,词所能够表达的词汇概念的性质和组织方式是什么? 第三,不同的词扮演什么样的文法角色? Wordnet 将重点放在第二类问题上,这类问题涉及到词汇的语义结构。为了减少不必要的混淆, 在这里用“词形”(word form) 特指词语或主题词,而用“词义”(word meaning) 来表示词形所代表的词汇概念。那么,词汇语义学的出发点就可以被认为是“词形”与“词义”之间的映射。通常,对于词的不同的文法分类有着不同的映射关系。
表1 简单说明了词汇矩阵的设想:假定表中的列代表词形,行代表词义,矩阵中的表元素对应列上的词形可以被用来表示相应表行上的词义(在一个适当的上下文环境中) 。这样,表元素E(1 ,1) 就表示:词形F1 可以表示词义M1 。如果同一表列中有两个表元素,则该词形具有两个义项,是个多义词
(polysemy) ;如果同一表行中有两个表元素,则对应的两个词形是同义的,相应的两个词是同义词(synonym) 。
词形与词义之间的映射是多种多样的,有些词形有多个不同的词义,有义可以用几种不同的词形来表达。编纂词典中的两个困难问题:多义词和同义词,可以被看作是这种映射的互补的两个方面。这就是说,多义词和同义词是从记忆词典中存取信息的过程中出现的问题。听者或读者在识别一个词形时必须处理多义问题,而说者或写者在需要表达一个意思时必须在同义词中进行取舍,这种语言处理过程清楚地反映在词汇矩阵中。词汇矩阵的表行和表列中的诸项,分别构成了词义集合与词形集合。Wordnet 的工作重点是在词义集合中建立词义间的语义关系模式;当然,也不能忽略词形集合中的词形间词汇关系。
Wordnet 中词义是如何表达的? 为了模拟词汇矩阵,就要寻求在计算机中表达词的形和词义的方法。主题词或词语可以为词形提供一种合理且满意的解决方法,而如何表达词义就成为词汇语言学理论的一个关键问题。
词汇概念如何用词汇语义学理论中的定义来表达,这取决于这个理论是描述性的还是差异性的。在描述性原理中,其表述应该包含足够多的信息以支持对概念的精确解释,Cross ,Kegl ,Gildea ,和Miller[11 ] 等指出:描述性原则的需求是不容易被满足的,大多数词典中的定义都不能满足这种要求。另一方面,在差异性原理中,词义可以用任何能对这些词义加以区分的符号来表示。因此,如果已经熟悉一个概念并且仅仅需要标识它,那么一个同义词通常就足够了。换句话说,在表6 – 1 中的词义M1 可以简单地用词形( F1 ,F2) ⋯来表示( F1 和F2 都可用于表达M1) 。以下,用“{”和“}”括起来的同义词集合作为标识词汇概念的定义。例如,“自然”这个词既可以表示“一定会⋯”,如“有生自然会有死”,也可以表示“宇宙间本有的⋯”,
如“自然风光”,那么同义词集合{自然,必然,一定,必定}和{自然,天然}就分别表示“自然”这个词所代表的上述两个不同的概念。这里需要说明一点:这些同义词集合( synsets) 不能解释这些概念是什么,而仅仅意味着这些概念存在。
因此,一个词汇矩阵从理论上可以用单词与其同义词集合之间的映射来表示。当某个词有多个同义词时,通常同义词集合足以满足差异性的要求。但是,有时找不到一个合适的同义词。在这种情况下,可以用一个短的注解来解决。例如,{自然, (态度舒适,不勉强) }来标识“自然”的这个词义。这可以被认为是只有一个元素的同义词集合。注解仅仅是为了使Wordnet 的使用者能够区分开可能混淆的词义。
当然,同义词是词形之间的一种词汇关系,但由于这种关系在Wordnet 中被赋予了中心角色,因此需制定一套符号系统来区分这种同义关系和其它词汇关系:同义关系的词放在花括号“{”和“}”中间,其它词汇关系放在方括号“[ ”和“]”之中。词义关系由指针标出。
Wordnet 是按语义关系组织的。由于语义关系是多个词义之间的关系,而词义则用同义词集合来表示,因此很自然的把语义关系看作为同义词集合之间的一些指针。这种语义关系是双向的,其特征:如果在词义{x1 ,x2 , ⋯}和{y1 ,y2 , ⋯}之间有一种语义关系R ,则在{y1 ,y2 , ⋯}和{x1 ,x2 , ⋯}之间也有语义关系R。为了讨论方便,语义关系的名称将承担双重角色:如果词义{x1 ,x2 , ⋯}和{y1 ,y2 , ⋯}之间的语义关系称为R ,那么R 也被用来标明属于这两个同义词集合的单个词之间的关系。
2.3 同义关系
Wordnet 最重要的关系是词的同义关系( synonymy) ,因为判断词之间这种关系的能力是在词汇矩阵中表达词义的先决条件。按照一个词的定义,如果它在一个句子中被另一个词替代而不改变句子的意义,那么这两种表达是同义的。按照这种说法,真正的同义词就算有也很少。现在弱化这种定义方式,使同义关系与上下文相关:如果两种表达方式在语言文本中相互替代而不改变其意义,则这两种表达就是同义的。例如,在有关自然风景的上下文中,用“天然”替代“自然”几乎不改变原义,但在另外的上下文中这种替代就根本不合适宜。
根据替换原则对同义词加以定义, 例得我们有可能把Worhnet 分成名词、动词、形容词和副词几大类。这就是说,如果概念用同义词来表示,并且同义词必须是可互换的,那么在不同文法分类中的记号就不可能是同义词(不能构成同义词集合) ,因为它们是不可互换的。名词表达一般的概念,动词表示动词性概念,而修饰语提供了修饰这些概念的方法。
用词汇意义对同义词进行定义,似乎会出现这样的情况:两个词或者是同义词,或者不是。但是,正如某些哲学家指出的,也是大多数心理语言学家认可的那样,同义词最好被认为是处于某个连续统一体中从某端出发,相近的词义按不同等级分类。大致的情况是这样:语义相近的词可以在上下文中相互替换,语义差别较大的词就不可以。但是,这里重要之处在于,词汇语义学理论并不依赖于词义的真正功能上的概念,语义上的相近就足够了。假定这种关系是对称的将会很方便,那就是如果x 近似于y ,则y 近似于x。语义近似这种等级分类的情况是无所不在的,它对理解形容词和副词的词义和组织都很重要。
2.4 反义关系
另一种熟悉的关系是反义关系(antonymy) ,它非常难以定义。一个词x 的反义词(antonym) 有时并不是非x。例如,“富有”和“贫穷”是一对反义词,但是要说某个人不富有并不意味着一定穷;许多人认为他们自己既不富也不穷。反义词似乎是一种简单的对称关系,实际上却是相当复杂的。
反义词是一种词形间的词义关系,而不是词义间的语义关系。例如,词义{升高,上升}和{下落,下降}可能在概念上是相对的,其中[ 升高/ 下落]是反义词, [ 上升/ 下降] 也是反义词。但是,如果问“升高”与“下降”或者“上升”与“下落”是否是反义词,大多数人都会犹豫并仔细琢磨一下。事实很清楚,有必要区分词形之间的语义关系和词义之间的语义关系。反义关系为Wordnet 中的形容词和副词提供了一种中心组织原则。
2.5 上下位关系
与同义词和反义词都是词形之间的词汇关系不同,上位关系(hypernymy) / 下位关系(hyponymy) 是词义之间接语义关系。例如:{枫树}是{树}的下位词,{树}是{植物}的下位词。下位/上位关系也称为从属/ 上属关系,子集/ 超集关系,或ISA 关系。如果以英语为母语的人接受以“An x is a ( Kind of) y”为框架构造的句子,则同义词集合{x ,x , ⋯}表示的概念被称为同义词集
合{y ,y , ⋯}表达的概念的下位关系。这种关系可以这样表示:在{x ,x , ⋯}中设有一个指针,指向其上位关系,在{y ,y , ⋯}中设有一个指针指向其下位关系。
上下位关系具有某种限制,而且是一种不对称的关系。通常情况下,只有唯一的上属关系。这就产生了一种层次语义结构,其中下位词位于其上属关系的下层。这样的层次表达方法,Touretzky[24 ]称作继承体系,它意味着下位词继承了上位词更一般化概念的所有性质,并且至少增加一种属性,以区别它与它的上位词以及该上位词的其他下位词。例如,“枫树”继承了其上位词“树”的属性,但却以其坚硬的木质、叶片的形状、可用于制作糖浆的树液等特性区别于其他的树。这种方法为Wordnet 中的名词提供了一种核心的组织原则。
2.6 部分关系
同义关系,反义关系和上下义关系都是我们熟悉的关系,一般是比较容易理解的。另一种语义关系称为“部分—整体关系”( 简记为HASA) , 词汇语义学家们称之为部分词(meronym) / 整体词(holonym) 的关系。如果我们考虑让以英语为母语的人,接受以“Ay has an x (as a part ) ”或“An s is a part of y”作为框架构造的句子,则同义词集合{x ,x , ⋯}表示的概念被称为同义词集合{y ,y , ⋯}表达的概念的部分词。部分关系也具有某种限制,且是不对称的关系(Cruse[7 ] ) ,可以构造一种部分等级关系。这里做了这样一种假设:一个整体的一部分的概念就是这个整体概念的一部分。尽管这种假设所隐含的东西值得进行更多的讨论,还是做了这样的假设。
以上这些关系,以及其他类似的关系也存在于头脑中的“记忆词典”中。在Wordnet 中,这些关系用括号中的一些词和由一个同义词集合到另一个同义词集合的指钱(带有标号的弧) 来表示,这些关系构成了一个复杂网络;知道一个词在网络中的位置,就几乎等于了解了这个词的词义。然而,抽象地讨
论这些关系是无益的,因为它们在组织与不同的文法分类有关的词汇知识中扮演着不同的角色。
3. 总结
可见,根据Wordnet 进行的系统分析主要是关系分析,这一点是计算语言界热衷的,而与以往各种语义分析方法都不同。如,非常诱人的名词继承性,在名词的语义消歧中,仅仅依靠Wordnet ,其消歧率就超过60 %; 在多国语处理的词汇转(EuroNet ,KoreaNet , ⋯) ,信息语义层次检索,主题含义识别,图像检索,文本语义分类,汉语语义分析,网上文本过滤,语料库语义标注, ⋯⋯等方面都有着广泛的用途;近年来有成百篇文章介绍如何使用Wordnet ,在国际计算语言学界已有相当的影响。