《现代汉语语法信息词典》的开发与应用
【摘要】现代汉语语法信息词典是为计算机实现汉语句子的自动分析与自动生成开发的一部机器词典,它以数据库文件形式收录了5万多条现代汉语的词语,不仅给出了每个词语所属的词类,而且详细描述了它们的各种语法属性。本文介绍这部语法词典的开发历程、内容概要和设计思想,并且举例说明在自然语言处理系统中如何应用这部语法词典。
关键词:现代汉语、语法信息词典、机器词典、自然语言处理
The Development of Contemporary Chinese Grammatical
Knowledge Base and its Applications
ZHU Xuefeng YU Shiwen WANG Hui
Institute of Computational Linguistics, Peking University
Beijing 100871, P.R.C
Phone :2501892
Abstract
The Contemporary Chinese Grammatical Knowledge Base is a machine dictionary,which is developed for automatic analysis and generation of Chinese sentences. There are about 50,000 Chinese words and idioms in the knowledge base represented by database files. The knowledge base not only gives part of speech for each word or idiom, but also describes their various grammatical attributes. The paper introduces the design, the development and the outline of the knowledge base and shows its applications in natural language processing systems with examples.
Keywods: contemporary Chinese, grammatical knowledge base, machine dictionary,
natural language processing
1. 现代汉语语法信息词典的开发历程
十年前,中文输入技术的主流还是汉字编码,以词为单位进行输入也只是汉字输入的陪衬。北大计算语言学研究所在1986年提出了一个语法规则制导的以语句为单位的中文输入方案,并在一年多的时间内实现了。参考文献[1]深入浅出地介绍了这个方案的原理与实现技术。这个方法中就包含了一部电子词典,除了词条及每个词的检索特征(拼音、起笔、末笔等)外,还包括词类及细分的子类。这部词典成为现代汉语语法信息词典的基础。
作为中国七五攻关项目“自然语言理解与人机接口”中的一个子专题,俞士汶于1987年提出了开发“现代汉语词语语法信息库”的计划[2] ,把研究重点放在词语语法属性的描述上。恰逢此时,中国著名语言学家朱德熙先生承担了全国社会科学规划领导小组下达的“现代汉语词类研究”的攻关项目。从此,北大计算语言学研究所与中文系的研究者们在朱德熙先生的率领下开始了联合攻关,并结成了稳定的合作关系。1990年,“现代汉语词语语法信息库”取得了阶段性成果,通过技术鉴定。
在讨论八五攻关项目时,以中国工程院院士、中国中文信息学会理事长陈力为教授为代表的中国一批自然语言处理技术专家敏锐地觉察到,为了中文信息处理技术的发展,特别是语言信息处理技术的发展,有必要建立通用的应用开发平台[3][4]。这个大型语言工程将现代汉语语法信息词典(以下有时简称为“语法词典”)列为它的一个子专题。从1991年起北大计算语言学研究所承担了这个子专题的研制任务。本项研究继承了“现代汉语词语语法信息库”的成果,又经过5年的努力,现在本项研究已完成如下任务:(1)制订了现代汉语语法信息词典的规格说明书与开发方略[5];(2)建立了面向信息处理的现代汉语词语分类体系并完成了关于这个分类体系的研究报告[6];(3)明确了词语的收录范围与选词原则[7];(4)探讨了某些词类的子类划分[8];(5)语法词典本身的开发,这当然是最繁重、最艰巨的任务。到目前为止,语法词典收录的词语总数为5万多条,并且将这5万多词都归了类,按照规格说明书填入了语法属性信息,其中百分之七十经过了仔细的、多遍的、不同角度的校对。
按照应用开发平台工程总体组的布署,北大已将语法词典的部分内容提交给其他子专题开发组使用。最近,负责句法规则的研究者告知,语法词典对句法分析提供的语法知识是有价值的,也是相当充分的。对于开发者来说,这当然是莫大的安慰与鼓励。另外,北大计算语言学研究所与中国科学院计算所联合开发“汉英机器翻译模型系统”,与北京通字公司联合开发“面向通用图像码的自然语言生成系统”,与自然科学基金项目配合,开发汉语语料库多级标注系统[9],这些应用系统利用了语法词典的信息。语法词典为这些应用系统取得阶段性成果也作出了贡献。
总之,现代汉语语法信息词典的开发已取得阶段性成果,并且在若干自然语言处理应用系统开发中得到了利用。
2. 现代汉语语法信息词典的内容概要
2.1 词语的分类
词语的分类既是任何一个自然语言处理系统的基础也是语法信息词典开发的基础。因为语法词典既要描述每类词都有的共同的语法属性,又要分别描述各类词特有的语法属性,只有这样,语法信息才会充分、完备,而又不致过于冗余。语法词典的词类体系是在朱德熙先生的语法理论指导下,依据词的语法功能建立的,现代汉语词语可划分为以下18个基本词类:
名 词(n) 如:书、水、教授、国家、心胸、北京
时间词(t) 如:明天、元旦、唐朝、现在、春天
处所词(s) 如:空中、低处、郊外、隔壁
方位词(f) 如:上、下、前、后、东、西、南、北、里面、外头、中间
数词(m) 如:一、第一、千、零、许多、分之
量 词(q) 如:个、群、公斤、杯、片、种、些
区别词(b) 如:男、女、公共、微型、初级
代 词(r) 如:你、我们、这、那么、哪儿、谁
动 词(v) 如:走、休息、同意、能够、出去、是、调查
形容词(a) 如:好、红、大、温柔、美丽、突然
状态词(z) 如:雪白、金黄、泪汪汪、满满当当、灰不溜秋
副词(d) 如:不、很、都、刚刚、难道、忽然
介 词(p) 如:把、被、对于、关于、以、按照
连 词(c) 如:和、与、或、虽然、但是、否则
助 词(u) 如:了、着、过、的、所、似的
语气词(y) 如:吗、呢、吧、嘛、啦、呗
拟声词(o) 如:呜、啪、叮呤当啷、哗啦
叹 词(e) 如:唉、喔、哎哟、嗯、啊
括号中的英文字母是各个词类的代码。这18个基本词类是被多数语言学家认可的。其中名词、时间词、处所词、方位词、数词、量词可以归并为体词(其主要语法功能是作主语、宾语),动词、形容词、状态词可以归并为谓词(其主要语法功能是作谓语),代词有一部分属于体词(如:你、我、这儿、哪里等),又有一部分属于谓词(如:这样、那么、怎么样等)。体词、谓词、区别词、副词又合称为实词,而介词、连词、助词、语气词合称为虚词。
在实际文本中出现的词语,除了属于以上18个基本词类的以外,还存在比基本词类要大的单位,如:
成 语(i) 如:空中楼阁、画龙点睛、字字珠玑、一衣带水
习用语(l) 如:总而言之、自古以来、跑龙套、摆花架子
简称略语(j) 如:北大、数理化、总参、三好、农牧业
也存在比基本词类更小的单位,如:
前接成分(h) 如:阿(~妹)、老(~张)、伪(~指令)
后接成分(k) 如:子(桌~)、儿(花~)、头(石~)、式、员
语 素 字(g) 如:碧、棉、宾、洁、农、怒
非语素字(x) 如:鸳、鸯、葡、萄、咖、啡
中文的标点符号(w) 如:。,《》 、!“”
为了分析实际文本的需要,现代汉语词语功能分类体系共包括了26个不同的词语类别。
现在已完成了语法词典收录的5万词语的归类工作。
2.2 语法词典的结构与形态
语法词典采用成熟的关系数据库技术,结合使用分类与属性描述两种方法,对5万词语建立了分级的语法属性库。每一个库文件都刻划了词语及其属性的二维关系。长期以来,自然语言处理技术都是应用规则系统描述语言的语法规律。这种规则系统抽象程度高,适合于描述词类与词类之间的组合关系。但是自然语言极其复杂,每个词语都有自己的特性,规则系统是难以应付大范围的实际语料的复杂性的。面向实际语料中词与词的同现关系的统计学研究是一个有前途的新方向,但统计的数据量非常大,需要强大的计算机系统甚至超并行计算机系统的支持。语法词典介于上述两种办法之间,是在应用需求与客观条件之间进行权衡与折衷的实际可行的策略。
词典中共有32个数据库文件。总库1个。各类词库24个(叹词、象声词、非语素字现未另建库)。代词库下又设两个库,即人称代词、指示 / 疑问代词分库,动词库下又设体宾动词、谓宾动词、双宾动词、动结式、动趋式、离合词等6个分库。
所有词的共同属性容纳在总库中,总库中的属性包括读音、词类、切分标记、姓氏标记等,共计约20项。各类词的特有属性填在各类词的库中。以动词为例,动词库中列出了46项属性,表1是动词属性库中部分属性的样例。
表1. 动词属性库中部分属性的样例
词语 |
同形 |
义项 |
助动 |
外内 |
体谓准 |
双宾 |
着了过 |
重叠 |
VVO |
离合 |
单作谓语 |
单作补语 |
兼类 |
交给 |
|
|
|
|
体 |
双 |
了 |
|
|
|
|
|
|
理发 |
|
|
|
内 |
|
|
了过 |
|
VVO |
离 |
可 |
|
|
会 |
A |
见面 |
|
|
体 |
|
着了过 |
VV |
|
|
|
|
n |
会 |
B1 |
理解 |
|
|
体 |
|
|
|
|
|
可 |
可 |
|
会 |
B2 |
可能 |
助 |
|
谓 |
|
|
|
|
|
可 |
|
|
会 |
C |
付帐 |
|
|
体 |
|
|
|
|
|
可 |
|
|
加强 |
|
|
|
|
体准 |
|
了 |
|
|
|
|
|
|
进行 |
|
|
|
|
准 |
|
了 |
|
|
|
|
|
|
能够 |
|
|
助 |
|
谓 |
|
|
|
|
|
可 |
|
|
保管 |
1 |
保存 |
|
|
体 |
|
着了过 |
ABAB |
|
|
可 |
|
|
保管 |
2 |
担保 |
|
|
谓 |
|
|
|
|
|
|
|
|
帮 |
|
帮助 |
|
|
体 |
双 |
着了过 |
VV |
|
|
可 |
|
q |
冒险 |
|
|
|
内 |
|
|
过 |
|
VVO |
离 |
|
|
a |
上去 |
|
|
|
内 |
|
|
了过 |
|
|
离 |
可 |
可 |
|
对动词的某些属性(如体词宾语、谓词宾语的类型)还要进一步刻划,则分别建立有关的分库。这样,整个信息库形成了层次构造的体系。
总库与各类词库,代词与下属的2个分库,动词与下属的6个分库都可以进行连结(JOIN),连接条件可以用词语、词类、同形这些字段来表达。这样,这32个库文件构成有上下位继承关系的“树”,子结点继承父结点的全部信息,或者说,将父结点与子结点连结起来就可以得到词语的更全面的信息。
2.3 词语的属性描写
分类法刻划事物虽然简洁、清晰、信息密度大,但属于同一类的事物仍可能各具特点,例如“鱼”和“牛”同属个体名词,因为“鱼”有专用个体量词“尾”,“牛”有专用个体量词“头”。但是,“鱼”通常还可以与度量词“斤,克”搭配,“牛”就不行。因此语法词典更依靠属性描述来刻划每一个词语的语法信息。如对于名词,就详细描述每个名词可以搭配的各类量词。
语法词典对每一类词的语法属性进行了相当充分的发掘。例如,对于作为研究重点的动词共确定了46项属性。这些属性大致可归纳为7类。第一类是关于动词本身特性的,如该动词是不是系词、助动词、趋向动词。第二类是关于动词变化形态的,如有没有VV、ABAB、AABB、V一V、V了V等形态。第三类描述该动词有无名词特性,如能否直接修饰名词,能否直接受名词修饰、能否作动词“有”的宾语等。第四类反映该动词同一些虚词的关系,如它前面能不能受“不,没,很”修饰,后面能不能带“着,了,过”。第五类描述动词在句中的功能,即该动词在句法结构中能否单独作主语、谓语、宾语、状语和补语,其中能否单独作谓语是一项很重要的属性。第六类刻划动词与后继成分的关系,即该动词能否后接表示结果的补语,能否后接趋向动词,能否后接时量成分,能否后接动量成分,能否带宾语。如果能带宾语,则进一步细分能带什么样的宾语:体词,谓词,双宾等。第七类包含其它零散的属性,如该动词的主语是否必须是“复数”。
3. 现代汉语语法信息词典的设计思想
3.1 通用与专用相结合,以通用为主
在自然语言处理系统中,通常都有一部包括词法、句法、语义信息的机器词典,但由于这类词典是服务于特定目的与特定系统的,为了把它从一个系统移植到另一个系统时需要花费很大力气,人们往往宁愿另起炉灶。本语法词典作为中文信息处理技术应用开发平台的一个组成部分,是独立于特定的处理系统的,甚至也不依赖于某个具体的计算语言学理论与算法,它反映的是现代汉语词语的语法功能的基本事实。各个具体的应用系统可能不需要语法词典所包含的全部知识,但都可以对它进行裁剪或从中提取出所需要的知识。语法词典的收词原则、各个词的义项的选取原则以及语法属性的确定都是面向通用的现代汉语的。但是,当将语法词典应用于具体系统时,也可以通过词语的选取、属性的增删向各个具体系统倾斜,专用的色彩就会变浓。
3.2 专家知识与语料库相结合,以专家知识为主
现代汉语词语分类体系的确立、若干词类的子类的划分、各类词的共同语法属性(总库)与特殊属性(分库)的设置以及属性值的确定主要依赖专家的知识。指导、主持与参与语法词典开发的专家或者是造诣颇深的著名语言学家,或者是在开发具体的自然语言处理系统中积累了丰富感性知识的计算机专家,或者是基础扎实文理结合的青年计算语言学工作者。语法词典就是将这些专家的知识以形式化、规格化的方式存储到计算机系统中。而且语法词典的开发也为计算机科学与语言学的结合找到了一个合适的途径。计算机系统可以较快地吸收语言学家的知识,语言学家也能比较容易地利用语法词典开展语言研究与语言教学研究。
在依赖专家知识的同时,我们也重视语料库的建设。对总体组提供的3批语料,我们参与了切分与词性标注。北大计算语言学研究所还建立了面向语法研究的语料库,并对其中一部分(约70万字)进行了切分与标注。利用这些语料,可对词典内容进行比较与校对,从而大大提高了词典内容的可信度。
3.3 基础研究与应用研究相结合,以基础研究为主
北大计算语言学研究所在八五期间始终将语法词典的开发列为工作的重点,尤其是课题组的主要成员,更是全身心地投入了这项开发工作,以全局利益和长远利益为重,坚持做底层的基础的工作。
北大计算语言学研究所也在另外一些项目中使用语法词典的成果。这些项目包括独立开发的现代汉语语料库多级标注系统CCMP[9],也包括与其它单位合作开发的如1.中所述的应用系统。从应用中得到的反馈意见既使课题组得到鼓舞,也使课题组清醒地认识到,要使这项成果早日问世,发挥作用,尚有很多艰苦的工作要做。
4. 现代汉语语法词典应用例解
语法词典是语言信息处理的基础,它不仅可以在语言信息处理的各个项目(如:机器翻译,自然语言接口,文献检索,语音识别,语音合成,文字识别,中文键盘输入,文本校对,语料库加工等)中得到应用,而且也可以在传统的语言学研究特别是现代汉语语法研究中得到应用。下面以实例解释如何运用这部语法词典。
4.1 句法分析
按照当前的主流技术,句法分析是机器翻译与自然语言理解等系统的处理流程中的一个必要的环节。句法分析指的是依据某种句法分析理论提供的规则分析自然语言的句子,得到这个句子的句法树(如上下文无关语法CFG)或以复杂特征集表示的功能结构(如词汇功能语法LFG)。要进行这种句法分析,必须要知道每个词的词性(即该词所属的词类, part of speech)。但仅仅依靠词性,会产生大量的歧义结构。如:
我们 选举 他 当 主席。 (1)
我们 认为 他 是 主席。 (2)
(1)与(2)的相似是明显的,从词性来看,它们都有如(3)所示的同样的词类序列。
r v r v n (3)
根据上下文无关的语法规则,这样的词类序列可以产生多种句法树。从语法词典中查“选举”,这个动词可以后接兼语结构,(1)的结构可以优选为图1中的左边的树。从语法词典中查“认为”,这个动词只能带谓词性宾语,且这个谓词性宾语是一个子句,(2)的结构只可能是图1中的右边的树。
S S
NP VP NP VP
r v NP VP r v SC
r v n NP VP
我们 选举 他 当 主席 r v n
我们 认为 他 是 主席
图1 句子(1)与(2)的句法树
在机器翻译系统中,只有得到了源语言句子的正确的句法结构,才有可能产生可信度与可读性皆好的目标语言的句子。
4.2 句子生成
一般地说,在自然语言处理系统中,汉语的句子生成相对说来要简单些,这是因为汉语的词没有复杂的形态变化,词序又比较灵活。以汉语为母语的人容易从词语、语素排列串中猜出它们要表达的意思。正因为如此,现在对汉语的句子生成投入的力量是不够的。自然语言处理系统生成的汉语句子往往带有“机器味儿”,不像地道的汉语。例如,机器翻译系统给出以下两句汉语是寻常的。
她是一个美丽姑娘。 (4)
当时敌机轰炸着这个城市。 (5)
“美丽”是形容词,“美丽”修饰“姑娘”在语义上也是适配的,但读起来总觉得有些别扭。这是因为汉语中的形容词,只有一部分可以直接修饰名词,相当多的一部分需要加助词“的”才能修饰名词。从语法词典的形容词库中,可以查到,“美丽”需加“的”,而它的同义词“漂亮”则不需要加“的”。只要利用这些平凡的知识,则能生成更自然的句子“她是一个美丽的姑娘”或“她是一个漂亮姑娘”。对于(5),之所以觉得它不地道,是因为“轰炸”这个动词后面不能接动态助词“着”,为了表示进行时态,可以改为“当时敌机正在轰炸这个城市”。在语法词典中确实包含了动词“轰炸”不能带“着”、可以受“正在”修饰的信息。
4.3 语音识别与拼音汉字转换
语音识别通常分为两个阶段。第一阶段是将无编码的语音信号转换为机内的汉语拼音序列,这是模式识别的任务。第二阶段是分化同音字或同音词,表现在书面上则是将拼音序列转换为汉字序列。这是语言信息处理的任务。采用拼音方式从键盘上输入中文所要解决的问题也是拼音序列到汉字序列的转换。假定,给定拼音序列
Zhuo1zi5 shang4 you3 yi1 jin1 pi2pa5。 (6)
这里,全拼音节后的数字1,2,3,4,5分别代表阴平、阳平、上声、去声、轻声。由于“pi2pa5”对应两个同音词“琵琶”和“枇杷”,某些系统转换出
桌子上有一斤琵琶 。 (7)
是不足为怪的。但如果利用语法词典,则可以查到每一个具体的名词可能与哪些子类的量词以及哪些具体的量词相适配。与“琵琶”相适配的只有个体量词“把”,而“枇杷”却是可以与度量词“斤”相适配的。根据语法词典提供的这些信息,系统就可以修正(7),从而得到“桌子上有一斤枇杷”。
又假定系统已确认对应“jiayi”的词是“加以”,接着输入“yanjiu”。没有更多的信息,系统很难判定对应“yanjiu”的是“烟酒”还是“研究”。如果利用语法词典,则知道“加以”是形式动词,只能带准谓词性宾语,不会带体词性宾语,因此在“加以”的制约下,对应“yanjiu”的只能是“研究”而不会是“烟酒”。
4.4 汉字识别的后校正
现在脱机(off-line)汉字识别技术对“师”这个模式通常给出“师、怖、帅”等若干个候选字。如果没有上下文,孤立地决定选取哪一个字是困难的。但如果在上下文“三个师的士兵”中,“师”的前后都是笔划较少、较易辨认的字,并且已经唯一地确定下来了,则只有“师”这个名词可以与个体量词“个”相适配。在现代汉语中,“帅”与“怖”只是语素,不能独立成词,一般不会与“个”相适配。因此,系统就会很有信心地从3个候选字中选择“师”。
4.5 语料库标注
北大计算语言学研究所开发汉语语料库多级加工系统CCMP的经验表明,进行语料库标注,采取基于规则的方法与基于统计的方法相结合的策略是恰当的,并且切分与标注同步进行是合理的[9]。在进行这种标注时,语法词典可以发挥重要的作用。词典中的数以万计的词都已经划好了类,对标注的正确性与一致性可以起到基本的保证作用。标注程序只需集中力量解决兼类词的歧义消解及未登录词的确认与词性判定。
利用纯粹的统计方法进行词类标注,也需要有人先对一部分语料进行手工标注(即对系统进行训练)。由于存在不同的语法体系,由于不同的人会有不同的认识,即使同一个人的认识也会发展变化,所以由人直接标注语料难免出现不一致性。例如,对于主宾语位置上的谓词(动词、形容词等)有可能被标为谓词,也有可能被标为名词。这样就会影响自动标注的正确率。依靠这部语法词典,就不会发生这种情况。而且,标注了词性的语料库与语法信息词典相结合,可以构成立体的知识库,即从语料中的词/词性入口,可以迅速检索到该词的诸多语法特性,从而为进一步的分析或标注提供丰富的知识。
5. 后记
本项研究虽然已取得了可观的阶段性成果,但要做的工作还很多。本课题组决心持之以恒,继续推进这项研究。本项研究自始至终是在陈力为院士的关心与支持下进行的。总体组的多位专家(如袁琦、董振东、黄昌宁等)及各合作单位都给过北大计算语言学研究所多种形式的支持与鼓励。在此一并致以衷心的谢意。
陆俭明与郭锐两位先生起了重要的顾问作用。北大计算语言学研究所的张芸芸、郭涛、周强、陶晓鹏、詹卫东、周莉娜等人或者是在词典本身的开发中或者是在词典的应用中都为本项研究贡献了力量。
参考文献
[1] 俞士汶,中文输入中语法分析技术的应用,《中文信息学报》,1988年,第二卷,第三期,PP20-26
[2] 俞士汶,现代汉语词语信息库开发工作介绍提纲,《计算机开发与应用》,1989年,第五卷第二期, PP16-18
[3] 陈力为,建立应用开发平台是中文信息处理技术的当务之急,《计算机世界》,1992年1月8日,第2期第5版
[4] Zhengdong Dong , 中国中文信息处理平台工程项目与汉语研究,Communications of COLIPS, Volume 3, Number 2, 79~88,1993.
[5] 俞士汶,朱学锋,郭锐,现代汉语语法电子词典的概要与设计,第三届中文信息处理国际会议论文集(ICCIP’92),PP186-191
[6] 俞士汶,信息处理用现代汉语词语分类体系介绍,计算语言学教学参考资料(北大计算语言所1993年7月编),PP35-57 ,其摘要“关于现代汉语词语的语法功能分类”刊载于《中国计算机报》,1994年5月31日第73版至第75版
[7] 王惠,朱学锋,《现代汉语语法电子词典》的收词原则,《中国计算机报》,1994年5月31日第79版至第83版
[8] 朱学锋,王惠,张芸芸,现代汉语语法电子词典中量词与名词的子类划分,《中国计算机报》,1994年5月31日第79版
[9] 周强,俞士汶,一个人机共生的汉语语料库多级加工处理系统CCMP,《计算语言学进展与应用》,清华大学出版社,1995年11月,PP50~55
本文刊登在新加坡《中文与东方语言信息处理学会通讯》,1995年第2期,PP81~86