WordNet词网研究2——之简介

 

Structure     

     The main relation among words in WordNet is synonymy, as between the words shut and close or car and automobile. Synonyms--words that denote the same concept and are interchangeable in many contexts--are grouped into unordered sets (synsets). Each of WordNet’s 117 000 synsets is linked to other synsets by means of a small number of “conceptual relations.” Additionally, a synset contains a brief definition (“gloss”) and, in most cases, one or more short sentences illustrating the use of the synset members. Word forms with several distinct meanings are represented in as many distinct synsets. Thus, each form-meaning pair in WordNet is unique.

From:http://wordnet.princeton.edu/wordnet/

      WordNet词的关系主要是同义词关系,例如,‘shut’与‘close’ ,‘car’ 与 ‘automobile’。同义词指的是表示相同概念在许多上下文里可以互换的词。同义词集——指把同义词组织到一个无序的集合形成的词集,同义词集,称synsets。 WordNet有117 000个同义词集,并且,每个同义词集之间通过少数‘conceptual relations’(概念关系)进行相互连接。然而,一个同义词集又包含了简短的解释(gloss)、一个或多个短句。当一个词含有许多不同含义时,该词会出现在不同的同义词集中。因此,每一条”形式—含义“对在WordNet里是唯一的。

Relation

      上下级关系,WordNet同义词集之间的关系主要是上下级关系(super-subordinate,也称hyperonymy, hyponymy 或ISA关系)。即父类子类关系,连接关系几乎如{furniture, piece_of_furniture},例如{bed} 和 {bunkbed},即{bunkbed} IS A {bed}。所有名词的超父类是{entry}(即,实体)。这种上下级关系具有传递性,如:如果armchair是一种chair,而Chair又是一种furniture,则armchair是一种furniture。WordNe也t通过类与实例的形式来区分名词的。如Barack Obama是president的一个实例。实例在这种上下级层次结构中属于叶子节点。

        整体部分关系,这种关系指某一个词集是整体,而另一个词集在含义上是该词集的部分,例如{chair} 与 {back, backrest},明显地(家具)靠背是椅子的一部分,{seat} 与 {leg},则leg脚是凳子seat的部分。‘部分’ 是可继承的,例如如果chair有leg,那么armchair也会拥有leg,armchair继承chair,所以也拥有leg。但是部分不能被反继承,例如chair拥有leg,但是furniture并不一定有leg。

     动词synsets,动词集也被安排到上下等级的关系中,动词集使用从根节点起的不断增长的区分规则树来特征化一个事件。例如{communicate}-{talk}-{whisper}。区分规则是基于语义域的,也只有在某个语义上动词的具体含义才被确定;“量度”是明确一个动词的基本度量(如communicate例子中),其他的还有“速度”(如move-jog-run)以及“强烈程度”(如like-love-idolize)。动词描述某一事件时必要的、单项的与另一个动词进行连接,如{buy}-{pay}, {succeed}-{try}, {show}-{see}等等。

       反义词组,形容词词集是由反义词对形成的。例如wet-dry 和  young-old,通过反义词对反映成员之间的语义结合关系。任何两个形容词之间有这种相互排斥的键进行连接,而某词又会与多个其反义词的同义词进行连接。例如dry将同时与parched, arid, dessicated 连接,而bone-dry会与wet, soggy, waterlogged等连接,等等。而形容词与名词的连接,是指明形容词来自于哪个名词。副词在WordNet里很少,而很多副词都来自于形容词,只是形式、形态的变化。

 Cross-POS relations

      实际上,WordNet由四个子网构成,nouns, verbs, adjectives 及 adverbs,通过一些cross-POS(part of Speech)指针线连接形成全网。Cross-POS通过将相同意思的词汇共享同一个树根,来表示其语义形态的相似。如observe (verb), observant (adjective) observation, observatory (nouns)j将使用具有相同的路径。许多noun-verb对中所表现的语义角色是明确的,如{sleeper, sleeping_car} is the LOCATION for {sleep}; {painter}is the AGENT of {paint}, while {painting, picture} is its RESULT。

 

可供参考书目

              Keith et al. (eds.), Encyclopedia of Language and Linguistics, Second Edition.

                Keith等编写的《语言和语言学全书》。

WordNet项目简介

      The project began in the Princeton University Department of Psychology, and is currently housed in the Department of Computer Science.

      目前WordNet由美国国家科学基金和Tim Gill基金赞助,由普林斯顿大学计算机学院维护。

    The WordNet team includes the following members

posted on 2013-01-19 14:51  烤德  阅读(1818)  评论(1编辑  收藏  举报