关于语言信息处理技术的展望
俞士汶
1. 发展语言信息处理技术的意义
笔者以为中文信息处理大致可以划分为两个层次。一个是文字层次,即汉字信息处理;另一个则是语言层次,本文只讨论汉语信息处理问题。全人类用于交流信息、传播知识、发展文化的各种自然语言(如汉语、英语等)有着深层的相似性,因而与文字层次相比较,汉语信息处理同其他语言的信息处理有更多的共性,当然汉语信息处理也有自己的特性,本文自然会较多地探讨汉语信息处理的特性。
随着社会的日益信息化,人们越来越强烈地希望用自然语言同计算机交流。自然语言理解是计算机科学中的一个引人入胜的、富有挑战性的课题。从计算机科学的角度看, 自然语言理解的任务是建立一种计算模型, 这种计算模型能够象人那样理解自然语言。由于自然语言固有的复杂性,人们对自己理解语言的机制也还是不甚了了,给“理解”下一个本质性的定义是极其困难的。由于语言是信息的载体,因此,关于计算机对自然语言的理解一般是根据实用的信息处理的观点进行评判的。如果计算机实现了 (1)人机会话或 (2)机器翻译或 (3)自动文摘等语言信息处理功能, 则认为计算机具备了自然语言理解的能力。由于这些实用的系统, 除了分析输入给计算机的文章或话语之外, 还需要具备生成语言的功能,因此,在计算机科学中,除了“自然语言理解”, 也常常使用“自然语言处理”或“语言信息处理”这类术语。为了实现语言信息处理的种种功能,人们在开发自然语言的词法分析、句法分析、语义分析、语境分析等技术,在积累诸如电子词典、语料库等语言数据资源。这些技术和资源有的已经形成产品,有的将被集成到新的信息处理系统中。汉语信息处理技术的发展还有巨大的潜力。
由于语言与思维、文化的密切关系,语言研究已成为西方现代哲学和人文科学发展的突破口。语言科学是人文科学中的领先科学,是人文科学与自然科学之间的桥梁,在整个科学体系中具有与哲学、数学相当的地位。由于在当代语言学研究中引进了数学方法和计算机技术,语言学本身也产生了飞跃,出现了许多分支交叉学科,其中计算语言学是最活跃的一个分支。当前国外语言研究围绕着一个中心课题,这个中心课题就是同研制智能计算机有关的语言学问题。我国的汉语语言学研究在这方面存在明显的差距。计算机领域的专家与语言学家相结合,开展语言信息处理研究,不仅可以缩短这个差距,而且可以带动整个人文科学的发展。
智能的本质是当代科学难题之一。要实现自然语言理解,最终必须了解人是如何理解语言的以及儿童是如何学会母语的。不同的语言学理论对人类的语言现象作出了不同的解释,各种争论之所以相持不下,是因为对大脑作为智能活动(包括语言活动)的物质基础的功能还未能透彻了解。在计算机上建立一个模拟语言理解过程的认知模型(现在的自然语言处理系统是这种模型的雏形),可以为观察大脑这个黑匣子的活动提供一个可以观察的“窗口”。利用计算机不仅成功地模拟了逻辑思维,而且也在模拟形象思维和灵感方面进行了探索。自然语言理解的研究可以为智能科学的突破贡献力量。
2. 语言信息处理研究的艰难历程
数字电子计算机在非数值领域的应用最早是在语言信息处理领域内开始尝试的。电子计算机问世不久,就开始了机器翻译试验。但无论同计算机技术本身的发展速度相比较,还是同计算机在其它领域的应用技术的发展速度相比较,语言信息处理的发展是相当缓慢的,道路是曲折的。 本世纪50年代后期及60年代前期美国出现过机器翻译研究的第一次热潮。1966年美国科学院语言自动处理咨询委员会发表的ALPAC报告给机器翻译泼了一瓢冷水,语言信息处理又有过一段沉寂期。自70年代后期以来,由于计算机技术的飞速进步和语言学理论的发展,由于一些机器翻译系统和数据库自然语言界面进入实用,更由于社会需求的推动,语言信息处理研究重新进入繁荣期,其显著标志是已有相当多的语言信息处理产品进入市场。然而道路并不平坦。原定90年代初完成的国际上两个大型机器翻译研究计划(欧共体的EUROTRA和日本与4个邻国的ODA)都未能达到预期的目标。90年代初一些学者倡导的基于语料库的统计学方法同样碰到重重障碍。国内外都有相当一部分专家对自然语言处理的现状、理论基础、技术路线在进行冷静的思考,一些学者认为至今尚未能跨越“语义障碍”,同时也在酝酿着新的突破。近年来,Internet迅速扩张,大量的信息犹如潮水般涌来,这些信息的主要载体仍然是自然语言,人们渴望发展自然语言信息处理技术以实现文本自动分类、文献检索、信息提取、语言翻译、自动文摘、自动勘校,加速信息、知识与文化的交流,促进社会、经济、科学的进步,显然这是每一个国家都面临的挑战。语言信息处理技术的发展又有了新的强大的推动力量。
我国是世界上最早开展机器翻译研究的国家之一,不过关于自然语言处理的较大规模的、比较系统的研究直到80年代中期才开始,是比较晚的。鉴于我国的国情,我国的学者又将主要的精力集中于实用系统的开发,理论研究的基础相对薄弱,理论成果较少。尽管有些系统取得了可观的经济效益,但从总体上看,我国的语言信息处理研究与当前的国际水平比较,还是有一定差距的。这种现象在科学技术的其他领域也许同样存在。我们需要着重分析的是在语言信息处理领域中有关汉语的一些特殊问题。
在语义分析与语境分析的层次上笔者注意到的是各种自然语言的共性,笔者难以相信在语义分析方面汉语会超越其他语言提前到达胜利彼岸的乐观估计。相反地,笔者更多地看到在句法分析的层次上汉语分析所遇到的特殊困难。
同属于屈折语的英语和属于黏着语的日语相比较,作为典型的分析语的汉语的外在特征是既缺乏形态变化,又缺乏作为句法标志的黏着成分。笔者以为在现有的汉语语法体系中,朱德熙先生提出的短语(词组)本位语法最符合汉语的实际与信息处理的需要。短语本位语法揭示了汉语外在特征对汉语句法分析的影响,这些影响也就是造成汉语自动分析困难的本质原因。短语为本的语法体系关于汉语句法的论述可摘要如下:(1) 由词到短语是“组成”关系,而从短语到句子是一种“实现”关系;汉语短语的构造原则与句子的构造原则基本上是一致的;(2) 汉语的同一词类在句法结构中可担任多种句法成分,且无形态变化;(3) 各类短语的构造成分又可以是各种类型的短语,谓语与其他各种句法成分处于同等地位,谓语本身又可以是主谓结构;(4) 尽管各种类型的短语的内部语序是固定的,但汉语句子的语序却相当灵活;(5) 汉语中的虚词虽然有重要的句法功能,但在很多情况下又是可以省略的;(6) 按句连写(词与词之间无空格)的书面汉语丢失了较多的语言信息。汉英机器翻译的译文质量远比英汉机器翻译的差,从实践方面印证了理性思考的正确性。
考虑到在实际运行的大多数语言信息处理系统中句法分析所占据的举足轻重的地位,清醒地认识到汉语自动分析的特殊困难是有意义的。只有认识到困难才有可能找到克服困难的对策。当然,我国的语言信息处理研究也有自己的优势。我国的学者是在比较先进的语言学理论指导下、在比较先进的计算机环境中开始这项研究的,避免了发达国家早期探索所走过的一些弯路。汉语是世界上最重要的语种之一。在我国,语言工程所需要的大量专家水平的人力以及语言数据资源都是丰富的,价格相对低廉。我国的学者完全可以充分发挥自己的聪明才智,承担起社会发展赋予自己的责任,有所作为,有所创造,有所贡献。
3. 关于语言信息处理技术发展策略的思考
3.1 基础工程——建立大规模的综合型语言知识库
人与人用自然语言进行交流并没有困难,这是因为交流总是在一定的环境中进行的,交流双方的知识背景(包括语言知识和真实世界的知识)一定有共同的部分,且交流的目的大体上也有了预设。现在的计算机系统还没有这些知识。真实世界的知识无边无际,必须面向特定的领域,然而语言知识却是共同的。建立大规模的综合型语言知识库是必不可少的基础工程。这个知识库既包括词法、句法知识,也包括语义乃至语用知识;这个知识库中的基本语言单位既有词,也有语素和短语;这个知识库既包含原始的语料库,也包含经过多级加工的语料库,知识含量高、存储格式规范的词典数据库更是必不可少的组成部分。为了实现机器翻译,这个知识库不仅包含汉语知识,还要包含汉语和其他语言的对译知识。经过十余年的努力,我国在这方面已经有了不少的积累,不过很分散,质量也参差不齐。现在既需要集成,也需要发展。北大计算语言学研究所开发的“现代汉语语法信息词典”可以成为这个综合语言知识库的构造材料,北大计算语言所研制语法词典的甘苦也可以为建设这个语言知识库提供借鉴。
3.2 理论探索——适合汉语的的理论体系和计算模型
在这方面应当学习国外的先进理论与方法,应当与国际研究接轨。例如,国外学者提出的基于复杂特征集和合一算法的多种计算语言学理论模型是值得我们“拿来”的。国外学者倡导语义分析和基于语料库的统计方法也是值得我们借鉴的,但如果因此而忽略或轻视适用于计算机处理的汉语语法规则的研究则是未顾及汉语的实际。笔者以为结合我国的实际情况,采用机器加工与专家校对相结合的技术路线,机器加工又结合规则的方法与统计的方法,有可能在较短的时间内对精选的足够大规模的语料库实现多级加工。单就这项目标而言,如果组织得当,我们有可能赶在别人前面。我们有了一个加工深度与精度都满足要求的语料库,就有可能构造出概率语法,从而结束语言规则说一不二非此即彼而语言事实却总有不符合规则的尴尬局面。
考虑到汉语自动分析的特殊困难,笔者以为受限汉语研究的现实意义与使用价值都是很大的。受限汉语不是权宜之计,在语言信息处理发展的历史进程中,它可以起到里程碑的作用。受限汉语有可能成为全世界炎黄子孙的共同语,将促进炎黄子孙间的交流与合作。受限汉语的研究将促进汉语的规范化和现代化,会提高汉语的国际地位。受限汉语有可能成为在信息高速公路上奔驰的满载汉语文化的高速列车。
3.3 产品开发——同理论研究和基础工程相互支持
尽管语言信息处理的理论与技术尚不成熟,但现有的技术和语言数据资源如果运用得当,也可以开发出适合市场需要的产品或提高信息技术产品的智能水平。由于总是感到对理论研究和基础工程的投入不够,分出一部分精力从事产品开发,以其收益支持理论研究和基础工程,使理论、基础、应用之间形成良性循环,这样的技术路线从总体上看无疑是可取的。不过,具体到一个小单位,常常会顾此失彼,这也是语言信息处理学界的苦恼。
3.4 人才培养——大力培养计算语言学的人才
为了推动自然语言处理技术的发展,为了增强我国在这一高新技术领域的竞争力,大力培养支撑自然语言处理技术的交叉学科——计算语言学的人才,特别是青年人才是十分重要的。国外很多大学都有语言学系,近10年来,还建立了计算语言学系或专业,美国的重要大学都有人攻读计算语言学博士学位。我国既无这样的系与专业,也没有计算语言学的硕士点与博士点。现在只能在其他一些学科(计算机科学或语言学)内培养计算语言学研究方向的博士生与硕士生。笔者希望能在一些有条件的大学试验建立计算语言学的博士点与硕士点,加速语言信息处理领域高级专业人才的培养。
(本文发表于《计算机世界》1997年第1期127版)