一 WordNet发展概况
· 关于WordNet的不成熟的想法可以追溯到20多年前,而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始,WordNet作为一个知识工程全面展开。不过,当时的WordNet和经过10多年后今天的WordNet还是很不一样的。
· 这一工程最初的前提之一是“可分离性假设”(Separability hypothesis),即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们,在词语水平上可以得到有用的研究成果。词库(词典,lexicon)当然不是完全独立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。
· 另一个前提是“模式假设”(patterning hypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论,并以20到50个英语单词为例来展示他的理论,而留下另外10万个单词让读者去做练习。
· 第三个前提就是所谓的“广泛性假设”(comprehensiveness hypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。
· 建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学(componential lexical semantics)的方法(也可译为义素分析法)。这种方式把一个词的意义分析为更小的概念原子的组合。不过,定义一套概念原子却非易事。事实上,WordNet主帅George.A.Miller在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法,但直到1985年,仍然没有能够出笼一个完整的定义清晰的清单,在上面列举出所有的概念原子。
· 到1985年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:除了利用语义成分(义素分析法)表示语义,还可以利用关系来表示语义(基于关系的词汇语义学relational lexical semantics),而且后者有可能替代前者。
· 在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候,他们就编制了应用软件来把想法变成现实。实际上,在早期,Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。
· 在1978年的时候,Miller描述了一种“自动化词典”(automated dictionary)的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会,Spencer基金会,IBM公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持着他的想法,而没有中途放弃。到1984年的时候,Miller甚至在IBM PC机上做出了45个名词的小型语义网,他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在Bellcore的一帮好友,Lance Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler, 以及Stephen Hanson都鼓励他继续下去,并在技术上给予许多实际指导。
· Lesk邀请Miller参加了1985年11月在加拿大沃太卢(Waterloo)大学新牛津英语词典中心的第一次会议。Miller提交了一篇论文。Miller在那篇论文中解释这样的思想: 我们可以使用同义词集合(synset)来代表词汇概念,并描述词汇矩阵,即在词的形式和意义之间建立起映射关系(mapping)。实际上,这正是在WordNet的发展中指导研究工作的主要思想。
· 不过,也许Miller在那次会议上的报告所介绍的思想尚在其次,报告的标题反而意义更大。那个标题是由Lesk提议的,叫做:WordNet: A Dictionary Browser。(WordNet:一个词典浏览器)。在这里,WordNet被看作(设想为)是一个词典浏览器,是一个机器可读词典的辅助工具。而这样一个机器词典不是传统地按字母排序的,是基于意义的。
· 也就是在WordNet开始成形的时候,Miller和他的一些志同道合的同事在普林斯顿合作发起了一个认知研究的计划(Program for Cognitive Studies)。Richard Cullingford从1983年到1985年在普林斯顿访问,他,Gilbert Herman,加上Miller说服Provost Neil Rudenstine提供了一台微型计算机。那台计算机也就成了普林斯顿认知科学实验室的心脏。有了设备在手,Miller又去说服海军研究办公室的Susan Chipman跟他们签合同来开发WordNet。Cullingford和Miller一起收到了军队研究所(Army Research Institute)的一个合同,开发一个词汇语义学的计算理论。1986年3月,James S.McDonnell基金向普林斯顿慷慨解囊,支持认知科学的研究工作。Marie BienKowski(Cullingford的研究生)和一个熟练的计算机专家,从1985年开始跟我们一道工作,不久就拿出了我们需要的软件。由此,WordNet真正成为普林斯顿新成立的认知科学实验室几项研究计划中的一个,并开始实际运作。
· 用来创建WordNet的最重要的程序是所谓的Grinder(磨床)程序。Bienkowski在1986年用LISP语言写了Grinder的第一个版本。Dan Teibel在1987年用C语言重写了这个程序。Antonio Romero在1989年又重写了一次。Randee Tengi从1991年开始负责管理该程序的所有这些版本。
· WordNet中的词来自不同的地方。Brown语料库、Laurence Urdang的同义反义小词典(1978)、Urdang修订的Rodale同义词词典(1978)、以及Robert Chapmand的第4版罗杰斯同义词词林(1977)等。1986年下半年,Miller得到海军研究与发展中心的Fred Chang的一个词表,Miller将Chang的词表跟WordNet已有的词表进行了比较,令人沮丧的结果是只有15%的重合词语,于是Miller把Chang的词表加入到WordNet中。1993年,Miller得到了Ralph Grishman和他在纽约大学的同事的一个词表,39143个词,这个词表实际上包含在著名的COMLEX词典中。这一次比较的结果是,WordNet中只包含了COMLEX中74%的词。于是Miller又把这个词表加入到WordNet中。
· 随着词表长度的增加,组织工作的压力开始增加。第一步区分是通过句法范畴来进行的。我们创建了不同的文件用于存放名词、动词、形容词(1992年后加入副词)。但在每个句法范畴内,仍有太多的词语,如果没有进一步分类就难以把握。名词由于是开放的词类,因而问题最严重。
· 1987年春,Philip N. Johnson-Laird从英国剑桥应用心理学研究所来到普林斯顿大学访问。他发现WordNet中缺乏手段来区分形容词的意义在修饰不同名词时所发生的变化。他利用266对反义形容词(当时WordNet包含了这些反义形容词对),根据它们修饰名词的适合度来分出名词的次类。结果大约得到名词的25个次类。这些次类构成了名词的基础分类。而且这些不同次类的名词也相应地被分成不同的个别文件交给不同的研究人员去分头加工,从而从工程上推动了WordNet的进展。
· 1987年夏,Christiane Fellbaum加入到研究队伍中来,承担了对动词进行次分类的工作。
· 只有Kitty Miller负责的描写性形容词(descriptive adjective),从一开始就一直保持是一个大类,没有次范畴化,所有的这些形容词也保存在一个巨大的文件中。
· WordNet从一个简单的“词典浏览器”(dictionary browser)发展成一个自足的词汇数据库(self-contained lexical database),主要的进步是从1989年年初开始的。当时SusanChipman不满于WordNet仅仅作为一个词汇浏览器而存在,要求研究小组开发一个工具。该工具可以在WordNet的基础上阅读一个文本,并报告文本中词语的各种信息。这一工具即所谓的“Word Filter”(词过滤器)。罕用的或不符合需要的词能够从小说文档中被过滤出去,而同时更常见的词语可以用来替代这些词。这个工作很快使我们意识到必须对词形的曲折变化进行处理。这使得我们处理了有关词形方面的一些问题,WordNet中仅包含词语的基本形式,如果文本中出现“ships”,WordNet就无法识别它。Richard Beckwith和Miceael Colon写了一个程序,叫做Morphy,可以识别出文本中的“ships”的词形式“ship”。到1989年9月,WordNet就可以处理文本中的词形变化,并在词库中找到相应的词语基本形式。
· 上述工作导致另一个重要的进展,就是在文本中将词语跟WordNet中的相应意义关联起来。Claudia Leacock(1991年11月加入)和Brian Gustafson开发了一个界面-- ConText,可以对文本进行预处理(实例化、词汇化、自动句法标注等),并跟WordNet一道显示目标词语(即对目标词语进行了语义标注)。1993年6月,Shari Landes负责把一整套的标注工具汇编到一起(包含一组标记),利用这样一套工具,可以尽最大可能产生一个无歧义的文本作为输出结果。对文本进行语义标注显著地提高了WordNet的覆盖面,即包括词汇覆盖面,也包括词义的覆盖面。
· WordNet的另一个重要变化是1989年春发生的,Antonio Romero修改了Grinder程序,使得它可以接受插入语定义(或理解为“注释”)作为同义词集合(synset)的一部分。随着WordNet中词语数量的增加,既要尽可能清楚地区别词义,同时又要保持同义词集合的纯粹性,就越来越困难了。换句话说,仅靠同义来定义词义是不够的。一开始,WordNet保持注释尽量得短。但一年后,注释就开始变得越来越长。注释数量也开始稳步增长。1989年4月,WordNet中有37409个同义词集合,没有注释;到1991年7月,WordNet包含44983个同义词集合, 13688个注释(30%);到1992年1月,WordNet包含49771个同义词集合,19382个注释(39%);到1993年1月,WordNet包含61023个同义词集合,36880个注释(60%);到1994年1月,WordNet中包含79542个同义词集合,58705个注释(74%);到1995年1月,WordNet包括了91050个同义词集合,同时包含了75389个注释(占同义词集合数量的83%)。
· WordNet的研究人员一直把WordNet视作一个试验,而不是一个产品。因此当WordNet中的词语足够多的时候,他们就把WordNet向学术界免费公开了。Randee Tengi监督了WordNet一系列版本的发行。WordNet 1.0版是1991年7月公布的;1.1版是在1991年8月公布的;1.2版是在1992年4月公布的;1.3版是在1992年12月公布的;1.4版是在1993年8月公布的;1.5版是在1995年3月公布的。目前加入WordNet邮件列表的个人和单位超过1000个。诸多研究人员下载了WordNet,并在各个不同的方面使用它。
· 对WordNet提供过资金支持的包括:海军研究室(Office of Naval Research),高级研究计划署(Advanced Research Projects Agency),James S. McDonnell基金,以及最近的语言学数据协作会(Linguistic Data Consortium)。
· 关于WordNet的不成熟的想法可以追溯到20多年前,而这一想法开始逐渐具体化和清晰化则是1985年后才开始的。从85年开始,WordNet作为一个知识工程全面展开。不过,当时的WordNet和经过10多年后今天的WordNet还是很不一样的。
· 这一工程最初的前提之一是“可分离性假设”(Separability hypothesis),即语言的词汇成分可以被离析出来并专门针对它加以研究。词汇编纂学的历史明确地告诉我们,在词语水平上可以得到有用的研究成果。词库(词典,lexicon)当然不是完全独立于其他语言成分的,但它的确是可以从其他成分中分离出来的。例如,尽管语音和语法知识在一个人的早年生活中就成型了,但词汇量却可以随着智力活动的不断积累而增加。这表明语言的不同成分涉及不同的认知过程。
· 另一个前提是“模式假设”(patterning hypothesis):一个人不可能掌握他运用一种语言所需的所有词汇,除非他能够利用词义中存在的系统的模式和词义之间的关系。这种系统化的心智模式至少从柏拉图时代就成为一种进行推测的学问,现代语言学研究开始在自然语言的语义结构中识别这样的模式。但许多遵循这类路线的出色的研究工作在这一问题上碰到了困难。一个作者可能提出一种语义理论,并以20到50个英语单词为例来展示他的理论,而留下另外10万个单词让读者去做练习。
· 第三个前提就是所谓的“广泛性假设”(comprehensiveness hypothesis):计算语言学如果希望能像人那样处理自然语言,就需要像人那样储存尽可能多的词汇知识。
· 建立包含词语意义描述的大规模词库的方式之一是基于语义成分分析的词汇语义学(componential lexical semantics)的方法(也可译为义素分析法)。这种方式把一个词的意义分析为更小的概念原子的组合。不过,定义一套概念原子却非易事。事实上,WordNet主帅George.A.Miller在1976年他与Philip N. Johnson-Laird合作的《Language and Perception》一书中还踌躇满志地探索义素分析的语义描写方法,但直到1985年,仍然没有能够出笼一个完整的定义清晰的清单,在上面列举出所有的概念原子。
· 到1985年,许多认知心理学家和计算语言学家开始以“网”的形式来描述词语的意义。比如:“桌子”(table)和“家具”(furniture)代表两个节点(node),而这两个节点之间有一个箭头(dart)来表示这样的命题:桌子是一种家具(a table is a kind of furniture),即“Is-A-KIND-OF”这样的语义关系。随着这方面研究的增多,越来越多的人自觉地意识到:除了利用语义成分(义素分析法)表示语义,还可以利用关系来表示语义(基于关系的词汇语义学relational lexical semantics),而且后者有可能替代前者。
· 在WordNet的早期阶段,研究人员主要是在考虑用关系语义来描述词义的方式是否能够大规模地广泛使用,而不是仅仅停留在玩具式的演示水平上。到了研究人员确信这是可行的的时候,他们就编制了应用软件来把想法变成现实。实际上,在早期,Miller并没有关于构建一个大词库的完整想法。初步设想是识别由字符串组成的最重要的词节点,并探索其中的语义关系模式。当时的想法是,如果得到了正确的语义关系模式,词语的定义就能从中推理出来,因此,对于一个有关词义的关系网来说,词义的定义是多余的。
· 在1978年的时候,Miller描述了一种“自动化词典”(automated dictionary)的想法。不过那时候他完全不知道该如何实现这种想法。由于Sloan基金会,Spencer基金会,IBM公司沃盛研究中心(Watson Research Center)的支持,Miller得以一直保持着他的想法,而没有中途放弃。到1984年的时候,Miller甚至在IBM PC机上做出了45个名词的小型语义网,他把这个小网叫做“word net”。Miller在IBM和Bellcore演示了这个示例成果。他在Bellcore的一帮好友,Lance Miller, Roy Byrd, Michael Lesk, Donald Walker, Robert Amsler, 以及Stephen Hanson都鼓励他继续下去,并在技术上给予许多实际指导。
· Lesk邀请Miller参加了1985年11月在加拿大沃太卢(Waterloo)大学新牛津英语词典中心的第一次会议。Miller提交了一篇论文。Miller在那篇论文中解释这样的思想: 我们可以使用同义词集合(synset)来代表词汇概念,并描述词汇矩阵,即在词的形式和意义之间建立起映射关系(mapping)。实际上,这正是在WordNet的发展中指导研究工作的主要思想。
· 不过,也许Miller在那次会议上的报告所介绍的思想尚在其次,报告的标题反而意义更大。那个标题是由Lesk提议的,叫做:WordNet: A Dictionary Browser。(WordNet:一个词典浏览器)。在这里,WordNet被看作(设想为)是一个词典浏览器,是一个机器可读词典的辅助工具。而这样一个机器词典不是传统地按字母排序的,是基于意义的。
· 也就是在WordNet开始成形的时候,Miller和他的一些志同道合的同事在普林斯顿合作发起了一个认知研究的计划(Program for Cognitive Studies)。Richard Cullingford从1983年到1985年在普林斯顿访问,他,Gilbert Herman,加上Miller说服Provost Neil Rudenstine提供了一台微型计算机。那台计算机也就成了普林斯顿认知科学实验室的心脏。有了设备在手,Miller又去说服海军研究办公室的Susan Chipman跟他们签合同来开发WordNet。Cullingford和Miller一起收到了军队研究所(Army Research Institute)的一个合同,开发一个词汇语义学的计算理论。1986年3月,James S.McDonnell基金向普林斯顿慷慨解囊,支持认知科学的研究工作。Marie BienKowski(Cullingford的研究生)和一个熟练的计算机专家,从1985年开始跟我们一道工作,不久就拿出了我们需要的软件。由此,WordNet真正成为普林斯顿新成立的认知科学实验室几项研究计划中的一个,并开始实际运作。
· 用来创建WordNet的最重要的程序是所谓的Grinder(磨床)程序。Bienkowski在1986年用LISP语言写了Grinder的第一个版本。Dan Teibel在1987年用C语言重写了这个程序。Antonio Romero在1989年又重写了一次。Randee Tengi从1991年开始负责管理该程序的所有这些版本。
· WordNet中的词来自不同的地方。Brown语料库、Laurence Urdang的同义反义小词典(1978)、Urdang修订的Rodale同义词词典(1978)、以及Robert Chapmand的第4版罗杰斯同义词词林(1977)等。1986年下半年,Miller得到海军研究与发展中心的Fred Chang的一个词表,Miller将Chang的词表跟WordNet已有的词表进行了比较,令人沮丧的结果是只有15%的重合词语,于是Miller把Chang的词表加入到WordNet中。1993年,Miller得到了Ralph Grishman和他在纽约大学的同事的一个词表,39143个词,这个词表实际上包含在著名的COMLEX词典中。这一次比较的结果是,WordNet中只包含了COMLEX中74%的词。于是Miller又把这个词表加入到WordNet中。
· 随着词表长度的增加,组织工作的压力开始增加。第一步区分是通过句法范畴来进行的。我们创建了不同的文件用于存放名词、动词、形容词(1992年后加入副词)。但在每个句法范畴内,仍有太多的词语,如果没有进一步分类就难以把握。名词由于是开放的词类,因而问题最严重。
· 1987年春,Philip N. Johnson-Laird从英国剑桥应用心理学研究所来到普林斯顿大学访问。他发现WordNet中缺乏手段来区分形容词的意义在修饰不同名词时所发生的变化。他利用266对反义形容词(当时WordNet包含了这些反义形容词对),根据它们修饰名词的适合度来分出名词的次类。结果大约得到名词的25个次类。这些次类构成了名词的基础分类。而且这些不同次类的名词也相应地被分成不同的个别文件交给不同的研究人员去分头加工,从而从工程上推动了WordNet的进展。
· 1987年夏,Christiane Fellbaum加入到研究队伍中来,承担了对动词进行次分类的工作。
· 只有Kitty Miller负责的描写性形容词(descriptive adjective),从一开始就一直保持是一个大类,没有次范畴化,所有的这些形容词也保存在一个巨大的文件中。
· WordNet从一个简单的“词典浏览器”(dictionary browser)发展成一个自足的词汇数据库(self-contained lexical database),主要的进步是从1989年年初开始的。当时SusanChipman不满于WordNet仅仅作为一个词汇浏览器而存在,要求研究小组开发一个工具。该工具可以在WordNet的基础上阅读一个文本,并报告文本中词语的各种信息。这一工具即所谓的“Word Filter”(词过滤器)。罕用的或不符合需要的词能够从小说文档中被过滤出去,而同时更常见的词语可以用来替代这些词。这个工作很快使我们意识到必须对词形的曲折变化进行处理。这使得我们处理了有关词形方面的一些问题,WordNet中仅包含词语的基本形式,如果文本中出现“ships”,WordNet就无法识别它。Richard Beckwith和Miceael Colon写了一个程序,叫做Morphy,可以识别出文本中的“ships”的词形式“ship”。到1989年9月,WordNet就可以处理文本中的词形变化,并在词库中找到相应的词语基本形式。
· 上述工作导致另一个重要的进展,就是在文本中将词语跟WordNet中的相应意义关联起来。Claudia Leacock(1991年11月加入)和Brian Gustafson开发了一个界面-- ConText,可以对文本进行预处理(实例化、词汇化、自动句法标注等),并跟WordNet一道显示目标词语(即对目标词语进行了语义标注)。1993年6月,Shari Landes负责把一整套的标注工具汇编到一起(包含一组标记),利用这样一套工具,可以尽最大可能产生一个无歧义的文本作为输出结果。对文本进行语义标注显著地提高了WordNet的覆盖面,即包括词汇覆盖面,也包括词义的覆盖面。
· WordNet的另一个重要变化是1989年春发生的,Antonio Romero修改了Grinder程序,使得它可以接受插入语定义(或理解为“注释”)作为同义词集合(synset)的一部分。随着WordNet中词语数量的增加,既要尽可能清楚地区别词义,同时又要保持同义词集合的纯粹性,就越来越困难了。换句话说,仅靠同义来定义词义是不够的。一开始,WordNet保持注释尽量得短。但一年后,注释就开始变得越来越长。注释数量也开始稳步增长。1989年4月,WordNet中有37409个同义词集合,没有注释;到1991年7月,WordNet包含44983个同义词集合, 13688个注释(30%);到1992年1月,WordNet包含49771个同义词集合,19382个注释(39%);到1993年1月,WordNet包含61023个同义词集合,36880个注释(60%);到1994年1月,WordNet中包含79542个同义词集合,58705个注释(74%);到1995年1月,WordNet包括了91050个同义词集合,同时包含了75389个注释(占同义词集合数量的83%)。
· WordNet的研究人员一直把WordNet视作一个试验,而不是一个产品。因此当WordNet中的词语足够多的时候,他们就把WordNet向学术界免费公开了。Randee Tengi监督了WordNet一系列版本的发行。WordNet 1.0版是1991年7月公布的;1.1版是在1991年8月公布的;1.2版是在1992年4月公布的;1.3版是在1992年12月公布的;1.4版是在1993年8月公布的;1.5版是在1995年3月公布的。目前加入WordNet邮件列表的个人和单位超过1000个。诸多研究人员下载了WordNet,并在各个不同的方面使用它。
· 对WordNet提供过资金支持的包括:海军研究室(Office of Naval Research),高级研究计划署(Advanced Research Projects Agency),James S. McDonnell基金,以及最近的语言学数据协作会(Linguistic Data Consortium)。