图灵测试

图灵测试

艾伦·麦席森·图灵

在我们了解图灵测试之前,我们需要了解图灵测试的提出者:艾伦·麦席森·图灵

艾伦·麦席森·图灵(英语:Alan Mathison Turing,1912年6月23日~1954年6月7日),英国数学家、逻辑学家,被称为计算机科学之父,人工智能之父。1931 年图灵进入剑桥大学国王学院,毕业后到美国普林斯顿大学攻读博士学位,第二次世界大战爆发后回到剑桥,后曾协助军方破解德国的著名密码系统 Enigma,帮助盟军取得了二战的胜利

1952 年,英国政府对图灵的同性恋取向定罪,随后图灵接受化学阉割(雌激素注射)。1954 年 6 月 7 日,图灵吃下含有氰化物的苹果中毒身亡,享年 42 岁

2013 年 12 月 24 日,在英国司法大臣克里斯·格雷灵的要求下,英国女王伊丽莎白二世向图灵颁发了皇家赦免。
图灵对于人工智能的发展有诸多贡献,提出了一种用于判定机器是否具有智能的试验方法,即图灵试验,每年都有试验的比赛。此外,图灵提出的著名的图灵机模型为现代计算机的逻辑工作方式奠定了基础

图灵在科学、特别在数理逻辑和计算机科学方面,他的一些科学成果,构成了现代计算机技术的基础

为了纪念他对计算机科学的巨大贡献,由美国计算机协会(ACM)于 1966 年设立一年一度的图灵奖,以表彰在计算机科学中做出突出贡献的人,图灵奖被喻为“计算机界的诺贝尔奖”

图灵测试

背景内容

机器能否思考这个问题历史悠久,这是二元并存理念和唯物论思想之间的区别。笛卡尔在 1637 年《谈谈方法》中预言了图灵测试。

笛卡尔指出,机器能够与人类互动,但认为这样的机器不能作出适当的反应,但是任何人都可以。因此,笛卡尔借此区分机器与人类。笛卡尔没有考虑到机器语言能力未来能够被克服

狄德罗对于图灵测试的标准:

如果他们发现一只鹦鹉可以回答一切问题,我会毫不犹豫宣布它存在智慧
— 狄德罗, Pensées philosophiques, Texte établi par J. Assézat et M. Tourneux, Garnier, I (p. 127-155).

这并不意味著他同意这一点,但它已经是唯物主义者当时普遍的说法

根据二元论者心态,心灵是非物理物质(最起码具有非物理性),因此不能以纯物理来解释。而根据唯物主义,头脑可以用物理解释,这提供了人工智慧产生的可能性

1936 年,哲学家阿尔弗雷德·艾耶尔思考心灵哲学问题:我们怎么知道其他人曾有同样的体验。在《语言,真理与逻辑》中,艾尔建议区别有意识的人类及无意识的机器

1956 年达特茅斯会议之前,英国研究者已经在机器人工智能研究领域探索了十几年。比率俱乐部是一个非正式的英国控制论和电子产品研究团体,成员包括艾伦·图灵

1950 年,图灵发表了一篇划时代的论文,文中预言了创造出具有真正智能的机器的可能性。由于注意到“智慧”这一概念难以确切定义,他提出了著名的图灵测试:如果一台机器能够与人类展开对话(透过电传设备)而不被辨别出其机器身份,那么称这台机器具有智慧。这一简化使得图灵能够令人信服地说明“思考的机器”是可能的。论文中还回答了对这一假说的各种常见质疑。图灵测试是人工智能哲学方面首个严肃的提案

2014 年 6 月 8 日,首次有电脑通过图灵测试,尤金·古斯特曼成功在雷丁大学所举办的测试中骗过研究人员,令他们以为“它”是一个名为尤金·古斯特曼的 13 岁男孩,但后来有文章指出它其实并没有真正通过测试

测试内容

如果一个人(代号C)使用测试对象皆理解的语言去询问两个他不能看见的对象任意一串问题。对象为:一个是正常思维的人(代号B)、一个是机器(代号A)。如果经过若干询问以后,C 不能得出实质的区别来分辨 A 与 B 的不同,则此机器 A 通过图灵测试

完成图灵测试涉及的技术课题:

根据人们的大体判断,达成能够通过图灵测试的技术涉及以下课题[6]:

  • 自然语言处理

  • 知识表示

  • 自动推理

  • 机器学习

但是为了通过完全图灵测试,还需要另外两项额外技术课题:

  • 计算机视觉

  • 机器人学

图灵测试的变种:

许多其他版本的图灵测试,包括上文所阐述的,已经经过多年的酝酿

反向图灵测试和验证码:

验证码(CAPTCHA)是一种反向图灵测试 。在网站上执行一些操作前,用户被给予一个扭曲的图形,并要求用户输入图中的字母或数字。这是为了防止网站被自动化系统滥用。理由是能够精细地阅读和准确地重现扭曲的形象的系统并不存在(或不提供给普通用户),所以能够做到这一点的任何系统可能是个人类

可以破解验证码的软件正在积极开发,软件拥有一个有一定准确性的验证码分析模式生成引擎。而在破解验证码软件被积极开发的同时,另一种通过反向图灵测试的准则也被提出来。其认为即使破解验证码软件被成功研发,也只是具有智能的人类透过编程对验证码所作出的破解手段而已,并非真正通过反向图灵测试或图灵测试。而如果一台机器能够规划出如同验证码一类的防止自动化系统的规避程序,此台机器才算是真正通过了反向图灵测试

完全图灵测试:

普通的图灵测试一般避免审问者与被测试计算机发生物理上的互动,因为物理上模拟人(比如像模拟人的外表)并不是人工智能的研究范畴。然而一些人工智能可能涉及一些人机在物理上的交互,所以人们又拓展出了“完全图灵测试”。在完全图灵测试中,可以包含必要的人机在物理层面上的交互。但是为了通过完全图灵测试,还需要在普通图灵测试之外另外两项额外技术课题。询问者还可以测试受试者的感知能力(需要电脑视觉),和受试者操纵物体的能力(需要机器人学)

一些反对意见

1.神学上的反对意见

思考是人类不朽灵魂的一种机能。上帝把不朽的灵魂给了每个男人和女人,而没有给任何其他动物和机器。所以任何动物和机器都不能思考。

图灵认为,这是神学家的观点,他们把人类中心论的观点强加给了上帝,认为上帝对于人类给予了更高级别的优惠,只能把心灵赋予人类。对于这种论点,图灵采用了神学家的一贯论证方式进行了反驳:既然上帝是全能的,那么就不应当否认他能把心灵赋予任何事物甚至大象的能力;人类不应当用不虔诚的心态来限制上帝赋予任何事物以灵魂的能力。神学家坚持错误观点的例子在科学史上屡见不鲜。比如,神学家一度相信地球是宇宙的中心,而哥白尼却证实了地球围绕太阳旋转

2."把头埋在沙里” 的反对意见

机器思考的后果太可怕了,我们希望并且相信机器做不到这一点

图灵认为,这种观点是赤裸裸的人类中心论。这种人类优越论的信念在知识阶层中特别普遍。他们认为思考对于他们来说更重要,更是人类不可剥夺的权利,觉得自己比其他生物或机器有优越性,不愿意承认、甚至不敢相信其他事物也具备思考的能力。图灵用懦弱来形容这类人的品质,因为“该论点根本没有多大价值,不值得反驳,给一点安慰可能更恰当些”

3.数学上的反对意见

数理逻辑的许多结果都可以用来证明:离散状态机器的能力是有限度的。这些结果中最著名的就是所谓的哥德尔定理,它表明,在任何适度丰富的逻辑系统中都可以形成一些陈述,它们在系统内部既不能被证明,也不能被证伪,除非是这种情况:系统本身不一致。这一结果认为存在着这种机器做不到的某些事情

图灵认为,这个反对意见的核心思想是机器本身是一个符号化的形式系统,既然如此,机器必然要陷入“哥德尔陷阱”,但对于人类而言却可以辨别出这类陷阱,即人类可以辨别机器内部那些不能被证明或证伪的命题是真的。图灵反驳说:“虽然已经能够证明一台特定的机器有这种能力的缺陷,但没有证据能够表明,人类的智能没有这种能力的缺陷。”对于计算机而言,计算机是可操作的,都以某种程序输入,而这种程序就是一个形式系统,按照哥德尔定理,任何内容适度丰富的无矛盾的形式系统都是不完全的,因此计算机的功能是不完全的,而且本质上是不完全的。但图灵认为,计算机做不到的,人类也一样做不到,因为人类所建立的形式系统也是不完全的,所以人类并 比计算机优越

4.有关意识的反对意见

按这种观点的最极端的版本, 确认一台机器能否思考的唯一办法就是变成这台机器,并感受到自己在思考

图灵认为,这个反对意见实际上是“唯我论”的观点。图灵反驳道:“如果得知一个人能否思考的惟一方法就是变成这个特定的人,⋯⋯那么思想交流便会发生困难。A倾向于认为‘A会思考,而B不会思考’,B却认为‘B会思考,而A不会思考”’。如此一来,人类之间的任何感觉和感受的交流都无法进行。出于对人类现实生活的尊重,我们还是认为人类可以交流,并且都可以思考

5.有关能力缺陷的反对意见

就算你真的能够让一台机器完成你提到的所有那些事情,但是你绝不可能让一台机器做到x。这里x的特征很多,下面只是一部分:要仁慈、机智、漂亮、友好,有首创精神,有幽默感,能辨别是非,会犯错误,会坠入情网,爱吃草莓冰激凌⋯⋯

图灵认为这个反对意见实际上建立在科学归纳法的原理上。因为人类还没有看到能够做这些事情的机器,所以就认为机器永远也不可能做到这些事情。图灵反驳道,尽管目前人类看到的机器又粗又笨,并且功能单一、目标有限,但对此人类不能下结论说机器只能有这样的简单功能,当计算机科学发展到一定阶段,人类自然可以看到具有x功能的机器。“对于这些批评机器不可能有丰富多彩的行为的说法,等于在说机器不可能有丰富的存储容量。这些都有可能在不久的将来实现,而不是乌托邦式的梦想。”

6.洛夫莱斯夫人的反对意见

洛夫莱斯夫人在回忆录中写道:“分析机(Analytical Engine)无权说它创造出什么新的东西。它所能做的都是那些我们知道怎样命令它去执行的事情。”洛夫莱斯夫人反对意见的另一种说法是,机器“从来不能做任何全新的事情”。这种反对意见还有一种较好的说法:机器永远不会“使我们出乎意料”

图灵反驳道,洛夫莱斯夫人只看到了一种特定分析机的特性,这种分析机只能按照既定的程序完成特定的任务,并不能根据复杂情况随机做出变化,她所了解的分析机并未使她相信其他的机器可以具有这些“创新”的特性。为此,图灵提出了“学习机器” 的思想。图灵认为,既然直接编制成年人心灵的计算机程序困难较大,我们可以先试图编制模拟儿童心灵的程序。这个儿童心灵程序还需要和教育过程程序密切相关,这样就模拟了人类心灵成长的过程。它的初始状态比较简单,通过教育过程使它逐步达到相对复杂的成人思维。在教育过程中程序不但可以设计随机单元,而且程序还可以利用惩罚和奖励的因素调整人类智能行为的结果。在这种情况下,虽然人类在一定程度上能够预言计算机器的智能行为,但由于智能程序本身的随机性和变化特征,人类就无法预言其准确的行为结果,这样的智能程序给人类带来“惊喜”就是必然的,计算机器的行为结果将会“出乎人类意料”

7.有关神经系统连续性的反对意见

神经系统肯定不是一台离散状态的机器。神经脉冲刺激神经元时,输入脉冲信号的微小偏差就可能造成输出脉冲大小的巨大变化。可以认为,如果这样,就不能指望用离散状态系统模仿神经系统的行为

图灵承认,离散状态机与连续状态机肯定有所不同。但图灵论证道,即使他们有所不同,也并不影响模仿游戏的顺利进行,因为询问者根本无法从电传打印机输出的符号中辨认出离散状态机与连续状态机。这样的话,这两种机器的差异对图灵测试毫无影响

8.有关人类行为的非形式特征的反对意见

通过建立一组规则来说明一个人在所有情况下应该做什么,是无法办到的。图灵将这个论点转述为:“如果每个人都有一套确定的制约他的生活的指导规则,人就并不比一台机器更强;但这样的规则是不存在的,所以人不可能是机器 ”这个论点的核心是说,人的行为与机器的行为有本质的: 同,机器也就无法模拟人的行为,更不能模拟人的思考,因此模仿游戏是无意 泛的

对于该论点的反驳,图灵首先说明,我们应该区分人类行为中的“指导规则”(rtlles of conduct)和“行为规律”(1aws of behavior)。“指导规则”是人们可以根据它来行动、也能意识到它的存在的规则,例如“看到红灯就停车”这样的条例;“行为规律”指的是人体中所表现出的自然规律,例如“你掐一下他,他就会尖叫”

图灵指出:“我们不能像认为完备的指导规则不存在一样,就简单地认为完备的行为规律也不存在。就我们所知,发现这种规律的惟一方法就是科学观察。”

因此,图灵得出结论,这种关于人类行为的非形式特征的假设是不成立的,也是未经证实的。诚然,我们还没有充分掌握人类的行为规律,但不能就此下结论说这样的规律不存在。只要我们承认“行为规律”之存在,我们就有能科学观察来发现它。一旦我们掌握了人类的行为规律,人类行为与机器行为之间的本质区别也就消失了

9.有关超感知的反对意见

这个论点的核心是,如果模仿游戏中的询问者有所谓的超感官知觉,例如心灵感应、透视眼、预知未来、远距离致动等,那么任何事情都可能发生,这必然导致模仿游戏无效。如果超感知存在的话,图灵认为确实任何情况都有可能发生。此时进行图灵测试,就必须设计一种“超感功能屏蔽室”

哲学之争
图灵本人对图灵测试可能遇到的诘难是有充分的思想准备的。自1950年以来,图灵测试激起了来自哲学、计算机科学、认知和神经心理学等多个不同领域学者的广泛而激烈的争论,赞成者有之,诘难者更有之。关于图灵测试的哲学之争,并不仅仅局限在机器能否思考这个问题上。在机器能否思考这个问题的背后是图灵对人类思维之本质的刻画,或者说是图灵对人类智能的明确界定。半个多世纪以来,对图灵测试的诘难主要集中在如下三个层面:

一、模拟的智能是否是真正的智能?

二、智能必须以语言作为中介吗?语言行为是否足够覆盖智能的多样性?

三、基于语句的判断和推理是否抓住了智能的本质?

图灵测试的拓展

1.模拟与复制

图灵测试是建立在模拟游戏的基础之上的,机器能够模拟人类的智能,是否表明机器就拥有智能呢?早在1964年,甘德森(Keith Gunderson)就表示过怀疑。按他的说法,虽然高仿真留声机可以迷惑人的耳朵,但它永远不是一个真正的乐队在演奏;同样,机器虽然可以做一些人类所做的事情,甚至比人类做得更好,但不能因此说明机器有智能。1972年,科尔比(Kenneth Colby)也提出了类似的观点。他认为,图灵的模拟游戏是有缺陷的和含糊的,比如“像女人”这个概念就是十分模糊的。此外,模拟游戏中没有指定当计算机能够模仿女人而不能够模仿男人会怎么样,计算机模仿女人就算成功,模仿男人就算不成功吗?

1980年,塞尔(John Searle)更明确指出,计算机模拟的火焰并不是真正燃烧,模拟的发动机并不能真正行驶,同样,模拟的理解并不是真正理解,模拟的智能并不是真正的智能。到了1990年代,科普兰(Jack Copeland)细致区分了模拟(simulation)与复制(duplication)的含义。科普兰认为,一个男人即使模仿一个女人,他也还是男人。如果一个男人在模拟游戏中胜利,他只不过是成功地模仿了一个女人,但他明显不是一个女人。因此,模拟游戏不是一个足够好的测试,模拟的智能并不是真正的智能,这就好像仿真的钻石并不是一个真正的钻石一样。机器模拟人类的智能通过图灵测试,并不能说明机器具有真正的智能。科普兰认为,模拟实际上是指那种没有模拟事物的本质的情形,比如演员的装死,复制则是对事物本质的再现,比如人造碳就具有天然碳的本质属性

按塞尔和科普兰的观点,模拟并不等于复制。对此,卡尔顿(LawrenceCarleton)反驳道,如果两个测试的输入和输出都相同的话,那么我们就可以认为是复制。计算机模拟火焰就不是复制,因为他们与真正的火焰没有相同的“输入和输出”,因此计算机模拟火焰就只能看成是模拟。但图灵测试和塞尔的中文屋都是输入和输出相同情况下的模拟测验,因此可以看成是复制。既然图灵测试不是表面化的模拟,而是对思维本质的再现,那么通过图灵测试的机器就应当被认为具备真正的智能

2.语言与智能

在图灵测试所激起的广泛哲学争论中,第二个主题涉及语言媒介的作用,这是因为图灵测试中关于智能的定义是建立在语言交流的基础之上的。1968年,弗德(Fodor)就指出,鉴于图灵测试只能表现出人类智能的部分功能,特别是语言功能,通过图灵测试只能展示出机器只具备人类智能的部分功能。不过,这类争论实际上指向两个不同的方面,其一是语言之于智能是否是必要的,其二是语言之于智能是否是充分的。对语言之必要性,科普兰明确表示过怀疑。科普兰(1993)认为,有些智能生物,比如黑猩猩、海豚和牙牙学语的幼儿,由于不具备语言功能,因此都会在测试中失败。如果这些智能生物都通不过图灵测试,那么我们推测可以思考的机器也可能通不过图灵测试。前面提到的弗德的观点实际上涉及语言的充分性问题,即语言是否能够展现人类智能的各个方面。按弗德的观点,图灵测试范围仅仅局限于人类对话的能力,因此不能作为通用的人类智能测试。针对这类诘难,史蒂文森指出,图灵测试是一个全功能的测试。图灵测试所测试的是一种智能的二阶能力,这种能力预设了其他的各种能力,因此,图灵测试是一个全功能的测试,而不只是测试了机器的语言功能。稍后,丹尼特进一步指出,图灵测试是一个通用的测试,适用于测试人类的各种智能,实际上图灵测试测试了人类的许多智能行为,包括理解幽默、探讨政治问题和创作诗歌的能力。更有力的反驳或许来自摩尔的论述。摩尔指出,语言能力足以用来归纳地推论出人类各方面的智能能力。人类可以根据逐步明朗的证据来逐步完善理论,但这不意味着人类必须收集完所有的证据才能做出结论。实际上,科学家们从未对已有的科学假设收集到所有的证据,但人类科学文明在不断地进步。认为图灵测试过于局限的观点,实际上是误认为图灵测试只是一个测试。图灵本人明确说过,图灵测试可以被广泛地运用到不同种类的测试,评判者可以要求测试机器的幽默能力、使用非母语的能力、或者其他各类能力

3.智能的本质与塞尔的中文屋测试

图灵测试中关于人类智能的定义是建立在语句基础上的判断和推理。针对这一定义的诘难可以分为外在的和内在的两大类。外在的诘难认为这个定义不够宽广;内部的诘难则认为,即使采用这个定义,也不能得出智能概念。其实,外在的诘难图灵本人早就预料到了。所有这些诘难,在某种程度上都是老调重弹,其要点包括:图灵测试是行为主义和操作主义的;意识(consciousness)与思维是密不可分的;内省(introspection)是人类思维的本质特征。比如,布洛克就认为,图灵测试仅仅关注人类的外部行为(externalbehavior),不能算作一个合理的智能测试。按照他的观点,机器的智能实际来自设计者,这些所谓的智能机器只能随声附和。一个人如果下棋时仅仅复制其他大师的棋谱而取得胜利,那他根本就不是大师;同样,一个能对话的机器也只不过是在重复程序员所编制的程序中的对话内容,这个机器不能被认为是智能的。仅仅关注人类的输入输出的能力会误导我们对智能的认识。宋勇刚图灵测试:哲学争论及历史地位5l这类外部诘难实质上沿用的是心理学上反对行为主义的古老策略,即重新引入内省、意识、甚至潜意识来看待智能,持这类观点的哲学家包括卡雷利斯、里奇拉克和米切尔等。卡雷利斯强调,意识是思考的本质。无论一个事物的行为特征有多么复杂或灵巧,也不能被认为是可以思考的,除非它有意识。图灵没有指明意识和思考是否就是一回事事,抑或是机器通过测试后是否就具备了意识。里奇拉克进而强调,内省是人类智能不可或缺的特征,但图灵测试并没有表现出内省的特点。因此机器即使通过了图灵测试,我们也不能说它具有智能。更进一步,米切尔强调,人类智能与潜意识密切相关。仅仅通过语言测试来判断机器是否能思考是不够的,因为我们潜意识中的一些语言现象在模拟游戏中也无法测试出来。如果说以上这些诘难,图灵不仅是充分认识到了,并且是有意排除在智能定义之外的话,塞尔所提出的内在诘难,多少出乎图灵本人的预料,并且对图灵测试概念提出了强有力的挑战。塞尔对图灵测试的反驳,主要基于其著名的中文屋实验

塞尔的中文屋实验是一个思想实验,其基本设想是:假设塞尔被锁在一间屋子里,并给了我一大批中文文本;而且,假定我对中文一窍不通(事实也是如此),既不会写也不会说,甚至我也没有把握,在辨认中文文本时能否把中文文本同日文文本或无意义的曲线区分开来。对我来说,中文文本和许多无意义的曲线简直一模一样。再假定,在第一批中文文本之后,接着又给了我第二批中文脚本,并带有一套规则,使第二批与第一批发生联系。规则是用英文写的,我和其他英文为母语的人一样是理解这些规则的。用这些规则,我可以把一组形式符号与另~组形式符号联系起来,这里“形式” 的意思只是说,我根据这些符号的形状就完全可以确认它们。现在,假定又给了我第三批中文符号,同时还有一些仍是英文的指令,这些指令使我可以把第三批的文本同前两批联系起来,并指示我怎样传回某种特定形状的中文符号,作为对第三批中送给我的那些特定形状符号的响应。根据此思想实验,在塞尔回答中文问题时,屋子外的观察者会认为塞尔对中文问题的回答将与中文母语的人的回答毫无差别。凡是看过塞尔回答的人,根本不会知道塞尔一个中文字也讲不了。但是根据这个实验的设定,塞尔根本不懂中文但正确回答了问题,对懂得中文的人来说,塞尔的行为就是一台计算机,塞尔就是例示了一个计算机程序,计算机程序根本不理解中文。塞尔由此得出结论:图灵测试中机器根本不理解回答的问题,机器根本没有思考,机器也没有智能

塞尔的中文屋测试可以说是针对图灵测试的最重要的一个反驳意见。自塞尔提出中文屋测试之后,相关的哲学争论迄今仍在延续,这里我们只提一下巴莱希的观点。巴莱希基于塞尔的理想实验,进一步探讨了语法和语义的问题。他认为,纯句法特征的机器可以通过图灵测试,但是没有自然语义的话,这样的机器永远不能具备人类的常识。人类的语言,并不单纯是一个满足句法要求的形式系统,而是具有丰富结构的语义系统。人类语言的语义特征是人类互动和人类文明传承的根本保证。四图灵测试与人工智能的发展尽管计算机器与智能 一文被普遍认为是人工智能的开篇之作,关于图灵测试对于人工智能这门学科60年来的发展所起的作用,学界的看法并不一致。我们不妨先来看看否定性的意见

早在1970年代初,迈尔泽(Bernard N.Meltzer)就指出,图灵测试是在引诱人工智能领域的研究者去完成一个被误导的目标,让他们以为只有对话才是实现人工智能的途径。他认为,这个目标是独断的、专横的和狭隘的。人工智能研究者应该首先致力于多样化的具体目标比如模式识别和求解微分方程等,只有实现这些目标之后才能逐步去实现一个人工智能系统。到了1990年代,不少学者都表达了与迈尔泽类似的观点。比如,谢伯(Stuart Shieber)就认为图灵测试干扰了丰富而有魅力的人工智能研究。哈纳德也认为图灵测试只关注人类行为的某个方面(语言能力),从而限制了人工智能研究的目标。海耶斯(P Hayes)和福特(K.Ford)虽然承认图灵测试的历史意义,但也仅止于承认其历史意义。在他们看来,“图灵测试在人工智能起始时是有着历史意义的,但当今已经成为人工智能领域的包袱。我们应该拒绝使用图灵测试,应该找到更成熟的方法来描述人工智能的目标。在今日,图灵测试只能放入到教科书中了。”1996年,惠特比(Blay Whitby)在总结人工智能的发展史时也认为图灵测试应当载入史册了。按惠特比的论述,人工智能的发展经历了4个阶段。在第1阶段(1950一l966), 图灵测试为人工智能领域带来了灵感的源泉;在第2阶段(1966~1973),它给人工智能研究的前沿领域带来了困扰;进入第3阶段(1973—1990),图灵测试主要是给哲学领域带来了困扰,对人工智能领域的困扰反而少些;到第4阶段(1990一),图灵测试应该被载人史册了。惠特比这样划分的理由是不难理解的。第1个阶段是计算机科学发展的初始阶段,图灵测试所展现的人工智能这一宏大远景,对计算机算法的研究和计算机硬件的发展提出了更高的要求。在第2个阶段,计算机硬件的发展和计算机软件的开发严重错位,人工智能的发展只能局限于模式识别这类非常有限的目标上,人类几乎看不到计算机通过图灵测试的任何希望。第3个阶段是计算机科学飞速发展并广泛应用于各行各业的阶段,人工智能领域的专家大都满足于具体而丰富的有限目标,有关图灵测试的讨论成了哲学家争论的话题。到第4个阶段,许多人二智能专家似乎已经不再关注图灵测试这类几乎不可能完成的目标了。然而并非所有的学者都认同图灵测试应载入史册的论点。弗伦奇(RobertM.French)相信,若干世纪之后图灵测试依然具有重要的意义;萨金(Ayse Pinar Saygin)在 图灵测试:50年之后)一文中说,再过50年还会有人来写 图灵测试:一百年之后 (Turing Test 100 Years Later);摩尔不仅强调我们不能放弃图灵测试,还相信图灵的预言会在将来成为现实。对图灵测试持肯定观点的作家还有库伯(Kevin L.Copple)。他认为,图灵测试是人工智能领域中一个十分有意义的实践尝试,它有助于科学家们深入研究人类的行为表现和人类的互动行为,从而逐步实现“更好的人工智能”(betterAI),而不是空谈的和学究式的“真正的人工智能”(true AI)

虽然迄今为止,让计算机通过图灵测试还是一个难以企及的目标,但这一事实并未磨灭人工智能专家的雄心。1991年,纽约慈善家勒伯纳(Hugh Loebner)设立了一个以其名字命名的竞赛奖项(Loebner Prize Competition),专门用于奖励每年一度的图灵测试竞赛的优胜者,冠军的奖金额度为100 000美元。勒伯纳竞赛如今已成为人工智能领域的盛会,每年都有人工智能领域最顶尖的专家前来参赛。竞赛的项目就是图灵测试,看谁带来的机器最具备人类智能的特征,谁的机器与人类的反应最难区别。起初的竞赛是限制主题的图灵测试(RestrictedTuring Test),例如只限制于数学主题、体育主题和政治主题等

1995年之后,这类限制被取消了,参赛者可以准备任意方面的主题。2008年,计算机埃尔伯特(Elbot)获得了该年度的勒布纳铜奖(金奖和银奖落空)。当年10月底,在英国雷丁大学(Reading University)进行的决赛中,埃尔伯特以文本对话的方式和12位经过严格挑选的试员交谈,结果有3位测试员认为它是一位真人,“一位真实的、健谈的人”。人工智能看来真的站在了与人类一样思考的门槛上了

与埃尔伯特相比,1997年战胜国际象棋大师卡斯帕罗夫的计算机“深蓝”(Deep Blue)算不得真正的人工智能,因为它的特点在于逻辑和运算,但并不机智和“狡黠”。埃尔伯特令人惊异的地方在于它的幽默和敏感,而且能够主导对话。在勒布纳奖的最后测试中,埃尔伯特还用调侃的方式暗示自己就是机器人,这导致一些测试员认定这是一位志愿者故意的误导行为,从而将埃尔伯特判断为人类:“你吃过早餐了么?” 测试员问。“是的。但我错误地把牛奶倒在了我的早餐上,结果还没吃,它们就上锈了— — 我原本应该倒油的。” 埃尔伯特回答说。从埃尔伯特表现来看,能够通过图灵测试的机器已经为期不远了

未来研究

从1950年图灵计算机器与智能 一文的发表到2008年智能机器埃尔伯特的诞生,近60年来关于图灵测试的争论几乎从未间歇。对于图灵测试所激起的广泛而持久的争论,图灵本人是有充分预见的。在其1950年的经典论文中,图灵就设想过9个方面的可能反对意见,并且逐一作了辩驳。尽管如此,图灵所做的辩驳并不能完全令人信服,其所预见的诘难也不能涵盖所有可能的反对意见

对图灵测试最有力的反驳来自塞尔的中文屋测试。该测试所蕴含的哲学推论是:模拟的智能仅仅是掌握了形式系统的语法规则,并没有真正理解自然语言的丰富语义,因此即使机器能够通过图灵测试,也不能说它具备人类智能。图灵本人在某种程度上预见到了这类诘难,即他的“数学上的反对意见”,不过他没有分辨语法与语义。无疑,关于图灵测试的哲学争论还将持续下去。图灵1950年的经典论文被公认为是人工智能学科兴起的标志。不过,关于图灵测试对于人工智能的发展意义,在不同的历史阶段人们的认识有所不同

大体说来,1950-1960年代,图灵测试被普遍认为是人工智能领域的灵感源泉;1970—1980年代,它确实给人工智能领域的前沿研究带来了某种程度的困扰;宋勇刚图灵测试:哲学争论及历史地位1990年之后,图灵测试虽然不被认为是人工智能的终极目标,但已经成为该领域研究中不可或缺的课题。1990年代的那种认为图灵测试应该尘封史册的论点,已经被随后的发展所否定。以通过图灵测试为目标的勒伯纳竞赛,如今已成为人工智能界的盛事。图灵测试本质上是对人类智能的一种操作性定义。人类思维的本质是一个古老的哲学问题。图灵对这一问题的界定虽然不一定精准,但至少将散漫的争论导向一个明晰的目标。无论通过图灵测试的机器是否真正具备人类的智能,这类智能机的研制不仅有着实用意义,同时也在向我们常识中的智能概念提出挑战

posted @ 2023-03-06 21:58  ppqppl  阅读(176)  评论(0编辑  收藏  举报