WordNet词网研究4——之Wordnet的应用领域
1.作为同义词词林的WordNet ·
WordNet跟同义词词林相似的地方是:它也是以同义词集合(synset)作为基本建构单位进行组织的。用户脑子里如果有一个已知的概念,就可以在同义词集合中中找到一个适合的词去表达这个概念。但WordNet不仅仅是用同义词集合的方式罗列概念。同义词集合之间是以一定数量的关系类型相关联的。这些关系包括上下位关系、整体部分关系、继承关系等。
2.作为一般词典的WordNet
WordNet跟传统的词典相似的地方是它给出了同义词集合的定义以及例句。在同义词集合中包含对这些同义词的定义。对一个同义词集合中的不同的词,分别给出适合的例句来加以区分。
3.描述词的关系
不同句法词类中的语义关系类型也不同,比如尽管名词都动词都是分层级组织词语之间的语义关系,但在名词中,上下位关系是hyponymy关系,而动词中是troponymy关系;动词中的entailment(继承)关系有些类似名词中的meronymy(整体部分)关系。名词的meronymy关系下面还分出三种类型的子关系(见“WordNet中的名词”部分)。
4.获取词语和它的上下文
为了提供词语的语境信息,普林斯顿(Princeton)认知科学实验室开发了一个语义检索工具(semantic concordance)——见《WordNet》一书第8章。该工具将文本和词库组成一个整体的数据库,从而使文本中的单词跟词库中合适的意义相关联。这样的语义检索工具,既可以看作是这样一个文本,其中的单词带有句法和语义信息的标注;也可以看作是一个词库,其中的词条都配有指示义项用法环境的例句。跟WordNet语义词库配合的文本是来自Brown语料库的语料(当代美国英语标准语料库)以及一个中短篇小说的全文(the complete text of a novella)。
5.意义排歧
尽管我们很清楚,在确定的上下文中,说者赋予多义词确定的一个意义,但排歧的过程并不容易。对计算机而言,排歧需要多大的语境就是一个大问题。
· Leacock和Chodorow(见《WordNet》一书第11章)测试了对多义动词“serve”进行多义词歧义消解的不同策略。在三个试验中,他们发现,选择上下文的“窗口”大小为6个词比较适宜,所得结果最优;此外,当将上下文信息和WordNet中有关词语之间语义相似度的信息结合在一起使用时,排歧准确度最高。
6.信息检索
意义排歧对许多应用来说都是关键因素,比如信息检索就是这样的应用领域。Voorhees(见《WordNet》一书第12章)解释说,要在大量文献中发现所需的文档,计算机就要在被查询词语和文档标题或摘要之间进行有效地匹配操作。Voorhees探讨了WordNet在词语匹配方面的效力,发现意义分辨方面的困难阻碍了有效利用WordNet中的语义信息。只有先依靠手工选择了概念,使得要查找的词语的意义已知,这种情况下,WordNet中的语义关系信息才对提高检索结果有帮助。
7.语义关系与文本连贯性
Hirst 和 St-Onge(见《WordNet》第13章)也讨论了上下文的问题,尤其是一个连贯的文本是如何组成的。基于语篇是由意义相关的概念串联起来的假设,他们使用了“词汇链”(lexical chain)概念作为评估连贯性的一种方式。Hirst和St-Onge采用词汇链来检查文本中的用词错误情况(malapropism)。他们把用词错误定义为:一个词所对应的概念跟该词所在的文本中的其他词所对应的概念无关。利用评估一个词汇链中链接强度的方法,Hirst和St-Onge认为,文本中词语之间的语义距离越大,出现用词错误问题的可能性也越大。
· Al-Halimi和Kazman也对信息存贮,索引,检索等问题感兴趣(见《WordNet》第14章)。他们描述了一种自动对视频会议的脚本按照话题进行索引的方法(不是按照关键词索引),以及利用话题索引结果,通过匹配对脚本进行信息检索。Al-Halimi和Kazman将话题信息描述为“词汇树”(lexical tree)——这是对“词汇链”的一个修正。前者对后者的革新之一是考虑了不同的语义关系类型的信息相关性。 · Hirst和St-Onge指出,WordNet缺乏有关两个相关词之间语义距离的信息。他们举的例子是:more stew than steak(焖肉比牛排多),其中“more ... than”是一个格式,用来连接两个语义上相关的词语。在这个例子中,两个名词(stew和steak)分属6个同义词集合(synset),显然这无法反映出它们真实的语义距离。说英语的人知道“good person”(好人,圣人)的两个上下位概念之间语义上是非常相似的。这两个上下位概念分别是{saint, holy man, holy person, angel},{plaster saint},而且这两个概念之间的相似性与它们跟第三个下位概念之间的相似性不同。第三个下位概念是{square shooter, straight arrow}(正人君子)。
8.知识工程
WordNet的诸多应用中,最具雄心壮志的也许是知识工程(见《WordNet》一书第15,16章)。
· Harabagiu和Moldovan(见《WordNet》一书第16章)指出,为常识推理建模需要一个扩展的知识库,其中包括数量巨大的概念和关系。WordNet提供了前者,但在关系方面不足以支持推理。他们的解决方案是对WordNet中的注释进行排歧,得到词语之间的更多关系,从而将WordNet中的注释转变为语义网络,其中包含不同词类之间的关系。他们举了一个例子:在hungry(饿)和refrigerator(冰箱)之间存在一个路径,因为这两个标记词在food(食物)这个节点上相撞,即通过food,可以把hungry和refrigerator联系到一起,从而用于常识推理。