人工智能的瓶颈问题与本体论语义学的回应(赵泽林,高新民)
一 本体论语义学的动因、方法与基本范畴
本体论语义学的倡导者尼伦伯格(S. Nirenburg)和拉斯金(V. Raskin)说:“本体论语义学是一种关于自然语言意义的理论,一种关于自然语言加工的方案,它把经构造而成的世界模型或本体论作为提取和表述自然语言文本意义的基本框架,作为从文本中推出知识的前提。这种方案也想根据自然语言的意义形成自然语言的文本。”[1] 这就是说,本体语义学有着双重动机。一是应用或工程学层面的动机,二是基础理论层面的动机,而前者就其现实的需要来说更为迫切。尼伦伯格等人认识到:已有的机器智能的最大问题是只能完成句法加工或符号转换,由此所决定,它即使快捷、方便、“多才多艺”,也无法改变其工具角色。因为它离人类智能还差关键的一点,那就是它没有意向性。所谓有意向性,就是有对外在事态的关于性(aboutness)或指向性,就是有对它物的知道和意识,有对自身的超越性,而不致停留于纯符号的形式转换。从语义学的角度来看,有意向性就是有语义性。所谓有语义性,就是人类智能所涉及到的符号有意义、指称和真值条件等特征。很显然,意向性、语义性和意义等词在本质上是一致的,正因为如此,当今的意向性理论、意义理论、语义学有合流的趋势。但是,迄今为止的机器都没有表现出上述属性。美国著名哲学家、认知科学家塞尔(John R.Searle)一针见血地指出:已有计算机所实现的所谓智能“本身所做的”只是“形式符号处理”,它们“没有任何意向性;它们是全然无意义的。……用语言学的行话来说,它们只是句法,而没有意义。那种看来似乎是计算机所具有的意向性,只不过存在于为计算机编程和使用计算机的那些人心里,和那些送进输入和解释输出的人的心里。”[2]如果从意义的角度理解信息,甚至不能说计算机有加工信息的功能。他说,“计算机所做的事不是‘信息加工’,而是处理形式符号。程序编制者和计算机输出解释者使用符号来替代现实中的物体,这个事实完全是在计算机范围之外的事。”[3]尼伦伯格等人不仅认识到了这一点,而且进一步强调:“意义是未来的高端自然语言加工的关键因素,”“有根据说,没有这种利用文本意义的能力,人们就不可能在自然语言加工中取得真正的突破,……而过去在这个领域中的大多数工作都未注意到意义。”[4]他们提出本体论语义学的研究目的就是要改变这一状况,就是要从技术的层面研究计算机如何利用和处理文本意义,如何让机器智能也有意向性。
要完成上述任务,必不可少的一项工作就是研究人类智能及其运作机理,研究人类意向性的根据和条件,尤其是揭示人类自然语言的加工机制,阐释其根本原则和方法,构建人类语义加工的基本模型。要模拟这样的智能,及其意义接受、理解、完成、输出机制,就必须进到说者与听者或语言的生产者与消费者相互交流的语境,探讨怎样将我们关于语言描述的观念系统化,将计算程序处理意义的观念系统化,怎样形成更符合实际的、更有应用价值的系统的表征理论。由这一任务所决定,本体论语义学提出了自己的方法论原则。既然它要完成的是应用方面的任务,它当然会设法形成这样的假设,即重构人类加工语言的能力及其所需的知识与过程,也就是要弄清人类的自然语言加工是如何可能的。为此,它有这样的理论预设,即承诺弱人智能观,而非强人工智能观。后者认为,计算机程序不仅应在功能上模拟人脑,而且还应从结构上、物理执行的过程与细节上去模拟。而前者则主张,在模拟人脑的语义能力时只需从功能上加以模拟就行了。判断模拟是否成功,主要看机器处理语义的能力是否与人类的语义能力在功能上等值。其次,本体论语义学的方法论独特之处还在于强调:要让机器对自然语言的加工有语义性,必须以本体论为基础。因为人类之所以能理解和产生意义,根本条件就是人类有一种本体论的图式。正是借助这种本体论图式,任何一个符号语词一旦进入人类视域,都会被归类进入特定的意义域,获得特定的语义值。不过,这里所说的本体论有其独特的含义。
尼伦伯格等人注意到:“本体论”一词具有歧义性。尽管“本体论”用法五花八门,但可归结为两大类,一是纯哲学的用法,二是具体科学和工程学中的用法。尼伦伯格赞成瓜里罗(N. Guarino)对“本体论”的观点,把前一用法称作“大写的本体论”,把后一用法称作“小写的本体论”。小写的本体论又有形式本体论和工程学本体论两种形式。瓜里罗指出:所谓“形式本体论……是关于先验划分的理论,如在世界的实在(物理对象、事件、区域、物质的量……)之中,在用来模拟世界的元层次范畴(概念、属性、质、状态、作用、部分……)之间作出划分”。[5]工程学的本体论与哲学中的本体论有很大的区别。它既不关心形而上学的“是”的意义,又没有关于实在的本体论分类。它关心的是信息系统中的整合因素,同时还涉及到有关概念分析之结果的本体论判定,因此它是名副其实的工程学本体论。[6]本体论语义学中的“本体论”既不同于形式本体论,又不同于哲学本体论,但从它们那里吸取了有用的东西。尼伦伯格等人说:他们的“本体论建构试图从形式本体论和哲学本体论中得到帮助”[7]在借鉴的基础上,他们对“本体论”提出了新的理解,建立了一种极有个性的本体论。“在本体论语义学中的每种语言的词汇都用相同的本体论来说明意义,因为它一定包含了那个本体论中的所有意义。”[8]尼伦伯格等人认为,“一个人要承认表征和处理意义的可能性,就必须找到这样的具体的意义因素,它们是外部世界实在的替代。而本体论语义学中的本体论就是能直接指示外部世界的最合适的东西。它实际上是世界的模型,是据此而建构的”[9]总之,本体语义学所说的本体论不过是语言加工系统中的一种概念框架,其作用是对输入的语词做本体论定位,为其有语义性创造条件。
二 本体论语义学关于语义加工系统的构想
要回答机器的语义加工何以可能,完成机器对人类自然语言加工的模拟,首先必须解决的问题是:人的自然语言加工何以可能?根据本体论语义学家的研究,所以可能的条件不外是:人类有将它与语言关联起来的能力,有别的技能,有情感和意志之类的非理性方面,因为人们赋予语词的意义常带有情感色彩。另外,就是活动的目的、计划及程序,最后就是各种知识资源。
本体论语义学认为,人类之所以能理解和产生意义,最重要的条件就是人类有一种本体论图式。正是借助它,任何语言一进到心灵之中就有了自己的归属,被安放进所属的类别之中,如听到了“红”一词,人们马上有这样的归类:它指的是属性,与“绿”“蓝”等属一类,为物体所具有,因而不是物体,等等而是基本概念与范畴。尼伦伯格等人说:“本体论语义学试图探讨的是人们在内省式和反思式地看待概念时对这些概念的运用。人们常常谈论属性。虚构的实在(独角兽或赫尔墨斯)和抽象的实质,把它们当作存在的。不过对于我们来说,决定把它们放在本体论之中不是根源于这样的事实,即这些实在是用自然的语言指称的,而是因为我们相信:由于人们在他们的宇宙中有这些概念因而语言才指称它们。”[10]因此,在语义机模型中,我们首先要建立的就是这种本体论图式。根据他们的看法,“本体论提供的是描述一种语言的词汇单元的意义所需的原语言,以及说明编码在自然语言表征中的意义所需的原语言。而要提供这些东西,本体论必须包含有对概念的定义,这些概念可理解为世界上的事物和事件类别的反映。从结构上说,本体论是一系列的构架,或一系列被命令的属性-价值对子。”[11]它为要表征的词项的意义作本体论的定位,即说明它属于哪一类存在,其特点、性质、边界条件是什么。例如当有一词“pay”输入进来,首先就要经过本体论这一环节,换言之,该词首先要被表征为一个本体论概念,要被放进本体论的概念体系之中,一当这样做了,它的属性、值便被规定了。有了本体论概念框架,在这种静态知识资源上就可以不断生成各种含有意义表征的动态知识资源。动态的知识资源是在应用所提出的任务、要求的基础上所产生的知识。
有了关于人类加工自然语言所需条件比较清楚和量化的认识,就有可能通过建立相应的网络让计算机也获得这样的条件,进而让机器表现出对意义的敏感,最终具有语义加工能力。本体论语义学相信:这不是没有可能的,至少有巨大的开发前景。对此,本体语义学进行大胆地尝试,并建构出典型的语义加工模型。其具体操作就是:先让加工器具备静态和动态的知识知源,然后让其有相应的加工能力。在实践的基础上,尼伦伯格等人通过分析公认的自然语言加工Stratified模型,详细说明了机器进行语义加工的基本原理与过程。
在尼伦伯格等人看来,智能主体要理解文本意义离不开至少六个基本环节的加工。第一步是文本分析,即要对输入的文本产生一个表征了文本的意义的正式表达式。由这任务所决定,它必须有分析器和生成器。从文本分析过程来说,文本要输入到系统之中,首先要经过“前加工”将文本加以重新标记,并区别分析不同语言、不同体裁和风格的不同文本,以便让文本能为系统所分析。第二步是对标记过的文本动用生态学、形态学、语法学、词汇学的静态知识资源作形态学分析,形成关于文本单词的引用形式分辨。例如碰到“书”这个词的输入,形态学分析会这样来分析:“book,名词,复数”,“book,动词,现在时,第三人称,单数”等。第三步就会把它们送给词汇学分析器,并激活这一分析器的入口。这个入口包含有许多类型的知识和信息,如关于句法的信息,关于词汇语义学的信息,其作用是检查、净化形态学分析的结果。例如英文文本中可能夹杂有法、德、意等语言的单词,还有一些模棱两可的单词,更麻烦的是,有些词在词汇分析器中没有出现过,因此无法予以检查。在这些情况下,就要予以查检、甄别,如对不熟悉的词,它有一些处理的步骤和办法。第四步是句法分析。第五步是决定基本的语义从属关系,例如建立未来的意义表征的命题结构,确定哪些因素将成为这些命题的主题,并决定该命题的属性位置。
在此基础上,本体论语义学提出了语义加工机的完整构想。尼伦伯格认为,机器要完成文本意义表征,必须有加工器和静态知识资源。首先第一步,借助静态知识资源(生态学、句法、形态学、词汇学、词源和本体论及事实材料)对输入文本作出分析,然后又借助这些知识资源产生文本意义表征。分析模块和语义生成器都离不开静态知识资源。知识资源是如何得到的呢?要靠学习。“本体论语义学必须涉及到学习:它们越起作用,它们储存的关于世界的知识就越多,它们可望达到的结果就越好。”[12]除了静态知识之外,计算机要完成语义表征,还必须有动态的知识,它们是关于意义表征的程序方面的知识以及推理类型的知识。另外,加工器还要有这样的动态能力,即把所储存的知识动态地提取出来,运用于知识表征。尼伦伯格等人说“在本体论语义学中,这些目的是通过把文本意义表征、词汇和本体论关联起来而实现的。”[13]“我们关于表征文本意义的方案动用了两种手段,一是本体论概念的例示,二是与本体论无关的参数的例示。前者提供了与任何可能的文本意义表征例示相一致的、抽象的、非索引的命题。这些例示是这样得到的,即提供了基本的本体论陈述,它们有具体的情境的、包含有参数的值,如方面、方式、共指等。”[14]在这里,本体论的概念之所以抽象但又必要,主要是因为它提供了对存在和语词的分类,如对于要表征的意义,它首先要借助这种本体论范畴确定它是属于物体、属性、方面、方式、过程、活动、数量中的哪一种。简言之,对于任一词的意义或所指,首先要借助本体论概念确定它应包含在哪一类存在范畴之中。在此基础上,再用非本体论参数分析它的具体的、情境方面的值。
三 特点与问题
本体论语义学与其他人工智能理论、自然语言加工系统相比有自己的一些鲜明特点。其一,它强调对意义的处理无需通过句法分析,至少主要不是通过句法分析。在它看来,机器对意义的接受、表征、加工、生成和输出,或者说,让机器的句法加工具有语义性或意向性,靠的主要不是原先的关键词匹配,句法转换,而依赖的是对人类智能的全方位模拟。其二,本体论语义学认识到了人类心理状态具有意向性、自然语言具有语义性依赖于复杂的因素,并在这种认识的基础上形成了研究意义的一种综合性方案。在具体的工程学实践中,它关注到了意义处理中的多方面因素,即不仅仅注意到了知识性因素,而且还重视潜藏在人类智能中的非知识因素,并通过特定的方式将它们“内化”到他们所建构的人工智能系统之中。第三,本体语义学非常重视本体论图式在人类心理状态意向性、自然语言语义性中的作用,并在将这一认识成果向工程技术领域转化,进而让自然语言加工系统获得这一语义生成的重要枢纽、机制方面做了大胆探索,取得了富有启发意义的初步成果。第四,本体论语义学的确有重要的实践意义和广阔的应用前景,最重要的应用价值是它能产生文本意义表征。因为它的语义处理系统可以借助静态知识资源对输入文本作出分析,借助加工器的动态能力将所储存的知识动态地提取出来,并运用于知识表征, 然后借助这些知识资源产生文本意义表征,并由特定输出设备完成在意义交流层次的人机对话。
可以说,本体论语义学面对当前人工智能发展的瓶颈问题,基于工程学实践和哲学反思,不仅在构建现实的语义机方面做出了极富价值的探索,也为揭示人类自然语言处理的基本原理提供了可资借鉴和进一步反思的研究成果。因此本体论语义学对于人工智能的发展来说是必不可少的选择之一。但是,这并不意味着本体语义学就是完备的、无懈可击的人工智能理论,非但如此,它尽管是为了回应塞尔中文屋论证和其他关于人工智能责难而提出的一种方案,但仍会受到这样的责难:它的自然语言系统所处理的意义、所生成的意义,好像仍离不开设计操作人员的解释,如果是这样,那么它充其量只有派生的意向性、语义性。其次,最大的问题是:这种理论建立的系统仍没有主动性、自觉性、意识性、目的性,而这些性质恰恰是人类固有的意向性的特征。因此要让机器成为像人类那样的有意向性的自主系统看来还有很长的路要走。
注 释
[1][4][6][7][8][9][10][11][12][13][14] S. Nuremburg and V. Raskin, Ontological Semantics, Cambridge, MA: The MIT Press, 2004, xiii, xiii, pp.138-139, p.154, p.111, p.88, p.135,p191, p160, p160,p174.
[2][3]塞尔:《心灵、大脑与程序》载于玛格丽特·博登:《人工智能哲学》,上海译文出版社,2001,第113页,第116页。
[5] N. Guarino, “Formal Ontology”, in N. Guarino et al (eds.), Special Issue, The Role of Formal Ontology in the Information Technology, International Journal of Human and Computer, 1995(43)5-6.