[计算理论] 1. 图灵机、递归函数与丘奇-图灵论题 Turing Machine, Recursive Function & Church-Turing thesis

图灵机

在研究一种自动机时,我们有两种视角

  • 语法学 (Syntax),描述一个自动机是什么,如分析自动机的组成、结构。

  • 语义学 (Semantics),描述一个自动机做什么,如分析自动机的语言。

换句话说,前者是自动机的视角,后者是形式语言的视角。

图灵机的语法

图灵机的原始描述如下:

  • 一台含有一条1无限长的纸带的有限状态自动机 (FSM, Finite State Machine)。

  • 纸带从最左端2开始向右无限延伸。纸带被分割为单元,每个单元上有一个字符或空字符 。纸带拥有一个读写头,指向纸带的某个单元,自动机每次转移时可向左或右移动读写头一个3单元,已经处于最左侧时向左移动将什么都不会发生4

  • 最开始,输入串 w 写在纸带的前 |w| 个单元里5,其他单元均为空字符。自动机在一个特殊的开始状态,正如 DFA 那样。读写头在最左侧6

  • 自动机每次读取读写头所在单元的符号,根据当前所在的自动机状态和这个符号,在同位置7覆盖写某个符号,转移到另一个自动机状态,并将读写头向左或向右移动。

  • 有两种特殊的自动机状态 acceptreject,每种各一个8,一旦走到,图灵机停机 (halt)。

上标表示这些地方的描述可以有等价的变种,因此看起来描述得十分随意。

形式化的定义如下。

图灵机的定义(语法部分)

一个图灵机是一个七元组 (Q,Σ,Γ,δ,qstart,qaccept,qreject),其中

  • Q 是自动机的状态。
  • Σ 是输入字符集。
  • Γ 是纸带字符集。Σ{}γ
  • δ:Q×ΓQ×Γ×{L,R} 是转移函数,表示由当前状态和读到的符号转移到另一个状态,在纸带上写一个符号并向一边移动。
  • qstart,qaccept,qrejectQqacceptqreject

需要注意的是,根据定义,图灵机是可数无穷多的。我们可以将其与 N 一一对应,记作 MM。在许多时候,具体如何映射是不重要的,因为我们只是使用这个映射的整体性质。

图灵机的语义

定义 图灵机一个配置 (configuration) 包含了自动机状态、纸带内容、读写头位置,写作

[elements before r/w head]q[elements on and after r/w head]

e.g.

11qstart1100111

图灵机的定义(语义部分)

  • 如果 δ(qi,b)=(qj,c,L) 那么称 u a qi b v 生成 u qj a c v
  • 如果 δ(qi,b)=(qj,c,R) 那么称 u a qi b v 生成 u a c qj v

其中 u,v 是两个字符串,表示左边和右边那些没有被改动的字符。

称所有 q{qaccept,qreject} 的配置为停机配置。

对于输入字符集 Σ 上的图灵机 M,其语言定义为

L(M)={wΣstarting with w on the first |w|cells of the tape,M will eventually enter the accept state}

其中 enter 的过程可以描述为:存在配置 C1,C2,,Ck,使得

  • C1=qstartw
  • Ci 生成 Ci+1
  • Ck 是一个在 qaccept 上的停机配置。

对于一个字符串 w,如果 wL(M),则图灵机一定会在 qaccept 上停机。但 wL(M) 时,图灵机要么在 qreject 上停机,要么不停机(永远循环下去)。

也就是说,除非能够证明其一定停机,我们无法通过将 w 送入图灵机,等待其输出结果来得知其是否属于 L(M)。这与 DFA 或者 DPDA 的行为不一致。

对于那些总是会停机的图灵机 M,我们称 M decides L(M),这样的语言是可判定的 (decidable),称为递归 (recursive) 语言。

否则称 M recognizes L(M),这样的语言是可识别 (recognizable) 的,称为递归可枚举 (recursively enumerable) 语言。

递归是说其与一般递归函数的能力等价,后文会证明这一点。递归可枚举是说我们可以通过某种方式枚举语言中所有的字符串,后文也会提到这一点。

如果 L¯ 是 recognizable 的,则称 L 是 co-recongnizable 的,也就是,对 L 来说,reject 总是能停机,而 accept 和不停机无法区分。

L 是 decidable 的当且仅当 L 是 recognizable 且 co-recognizable 的。

需要注意的是,这里我们只能在抽象层面来描述两种语言的区别,如果我们能用操作性的语言直接地描述这两种语言的区别(比如操作性地给出一个不是可判定的语言,如之前的 {0n1nnN} 之于正规语言那样),那就违背可计算性理论的基本论题,即丘奇-图灵论题。

图灵机的变种

图灵机有许多等价变种。这些变种都是在原先图灵机的原始定义上增加一些操作的便捷性。但这些便捷性并不会增强图灵机的能力。图灵机也不可能通过仅是语法学上的努力增强能力。

由于我们考虑的是可计算性,而不是计算复杂性,使用原始图灵机对这些图灵机变种的模拟并不需要高效,有些时候我们甚至不知道是否存在一种高效的模拟(e.g. P v.s. NP)。

多带图灵机

多带图灵机拥有 k 条纸带。转移函数的定义变为

δ:Q×ΓkQ×Γk×{L,R,S}k

其中 S 是为方便引入的记号,表示不移动读写头,这可以通过修改 FSM 的状态做到。

使用原始图灵机可以按照如下方式模拟多带图灵机:

  • 从左向右顺序地写下每一条纸带上的内容,用一个特殊字符 # 分隔。
  • 当多带图灵机的某条纸带向右扩展其长度时(即覆盖某个 时),原图灵机的读写头指向了一个 #,此时命令其走到 FSM 的一个特殊子模组上,将右侧的所有内容向右移一位。
  • 为了记录每条纸带的位置信息,将纸带字符集 Γ 扩充为 (Γ,{0,1}),第二维的 1 表示读写头正在这个位置上。每两个 # 之间有且仅有一个状态的第二维是 1
  • 模拟时,从左向右读那些第二维状态为 1 的位置,将他们写到一个特殊的纸带位置上,比如最左侧,对当前读到第几个纸带可以使用 FSM 的状态记忆。读取到全部内容之后,做出决策并修改纸带。

非确定性图灵机 (NTM, Nondeterministic TM)

同 NFA 之于 DFA 一样,NTM 将其转移的输出改为了原来的幂集。

δ:Q×Γ2Q×Γ×{L,R}

NTM 接受一个串的过程与 TM 一致,只需要修改生成过程为

  • 如果 (qj,c,L)δ(qi,b) 那么 u a qi b v 生成 u qj a c v
  • 如果 (qj,c,R)δ(qi,b) 那么 u a qi b v 生成 u a c qj v

也即,NTM M 接受 w 当且仅当以 w 作为纸带的输入,存在一条在 qaccept 上停机的合法路径。

此时,M decide L(M) 当且仅当其所有分支都会停机。也即,对那些 wL(M)Mw 为输入时,所有分支都到达了 reject

Nondeterminism 与 Verification 是一组相抵的概念。对于语言 A,如果有 NTM M decide A,则存在一个 deterministic TM V 使得 V(w)=[wA];如果有 DTM V 使得 V(w)=[wA],则存在 NTM M decide A。两者的相互转化是多项式级别的,因此 NP 问题有两种等价的定义

  • 复杂度类 NP 包含了那些能够在多项式时间内由一个 NTM 解决的判定问题。
  • 复杂度类 NP 包含了那些能够在多项式时间内有一个 DTM 验证的判定问题。

当我们有 M 时,若对任意 w,以 w 为输入时 M 进行的决策数有上限 T,则 V 可以为读入一个长度为 T 的字符串,按照其内容在 NTM 上做决策,看最终是否走到了 qaccept 的 DTM。当我们有 V 时,可以在 qstart 前先使用与输入长度相同的状态个数来枚举所有输入的可能得到一个 NTM。

我们可以使用 3 条纸带的图灵机模拟一个 NTM。

我们尝试枚举每一种输入。由于我们要支持仅是 recognizable 的语言,DFS 是不可取的,因为有可能会一些有停机的实例包含不停机的分支。

我们将纸带 1 作为只读的,用于保留原始输入,纸带 2 用于模拟 DTM,纸带 3 记录所有做过的决策。我们按照字典序枚举决策,将其写入纸带 3。注意字典序是优先按照长度从小往大排序的。确定了决策之后,将输入从纸带 1 拷贝到纸带 2 上,用纸带 2 模拟。如果每个决策都合法,且最终恰好走到了 qaccept,返回 accept。按字典序枚举决策可以通过由当前决策的编码推导出下一个决策的编码来实现。

需要注意的是,在一个 NTM 中,即使有一部分转移不存在 nondeterministic 的情况,这些状态和转移也可能可以造成无限循环,因此枚举决策需要在所有的步骤都进行,即使某些步骤是 deterministic 的。

另一个需要注意的点是,这种模拟的模式所有的负例都是不停机的。如果 NTM M decide L(M),我们称 M 是一个 decider。如果想要模拟一个 decider,使得那些负例也总是停机,那我们需要不再枚举那些某个前缀已经走到了 qacceptqreject 的决策。决策的枚举过程会在我们发现对某个 L,长度不小于 L 的所有的决策都被停机状态覆盖了时停止。

枚举器 (Enumerator)

一个枚举器是一个具有只写的纸带,即“打印机”的图灵机。

为什么被图灵机识别的语言被称为递归可枚举语言?这是因为一个语言是递归可枚举语言当且仅当我们可以用一个枚举器枚举出其所有字符串并依次打印在只写纸带上(或许有重复)。

考虑这样的过程

  • 将合法的输入与自然数一一对应。
  • i=1,2,3,
    • j=1,,i
      • j 作为 M 的输入,运行 i 步。
      • 如果 accept,输出 j

不难看出,每一个 accept 的字符串都会被输出至少一次。

通用图灵机

通用图灵机是这样一个图灵机,输入 M,w,其中 M 是一个图灵机(需要先进行编码),运行结果与 wM 上运行的结果一致。

我们可以用 3 条纸带的图灵机来模拟通用图灵机,纸带 1 只读,提供 M 的信息,纸带 2 模拟 M 的纸带,纸带 3 记录当前在 FSM 的哪个状态。

递归函数

递归函数是可计算性的另一种刻画方式。这种刻画方式并不显式地给出计算模型(自动机、纸带),而是从一个基础出发,规定所有可行的计算过程,将所有可达的部分视作可计算的。这个动机源自于数理逻辑中的形式主义 (formalism),即所有的数学都可以归结为操纵公式的规则,而那些数学命题是形而下的,只需要被当作字符串接受操作,而不需要理解其含义。我们通过对命题操作规则得到其他命题,称之为定理。

原始递归函数

原始递归函数是一类函数,这类函数是由最基本的函数和一些允许的推导法则得到的。这些法则将会替代图灵机中的“计算功能”。因为对一个函数在一个点的取值,我们可以通过反向调用这些推导过程,回到最基本的函数,并回溯得到函数值。而“递归”一词来源于其中一条推导法则“原始递归”,允许让 f(x+1) 的取值取决于 f(0),f(1),,f(x) 与之前已经定义的函数。

原始定义如下

原始递归函数 (primitive recursive function) 是通过对以下基本函数进行有限次推导法则得到的函数族。

基本函数:

  • 零函数f(n)=0
  • 后继函数f(n)=n+1
  • 映射函数pik(n1,n2,,nk)=ni

推导法则:

  • 复合:若 g(n1,,nj),hi(n1,,nk) 是原始递归函数,则

    f(n1,,nk)=g(h1(n1,,nk),,hj(n1,,nk))

    也是。

  • 原始递归:若 g(n2,,nk),h(n1,,nk,nk+1) 是原始递归函数,则

    {f(0,n2,,nk)=g(n2,,nk)f(n1+1,n2,,nk)=h(n1,n2,,nk,f(n1,,nk))

    也是。

m+n 是原始递归函数,一个推导过程如下。

f1(n)=n+1(successor function)f2(n)=n(projection function)f3(m,n,p)=p(projection function)f4(m,n,p)=f1(f3(m,n,p))=p+1(composition rule){f5(0,n)=f2(n)f5(m+1,n)=f4(m,n,f5(m,n))(recursion rule)

f5(m,n)=m+n。同理 mn 也是,推导过程几乎相同

f6(n)=0(zero function)f7(m,n,p)=mf8(m,n,p)=f5(f3(m,n,p),f7(m,n,p))=p+m{f9(0,n)=f6(n)f9(m+1,n)=f8(m,n,f9(m,n))(recursion rule)

f9(m,n)=mn

这样的过程不断堆叠,mn,mmmn 等等函数也可以被做出来。但是这样的累加只能做常数轮。如果要做 m 轮,则这个函数不属于原始递归函数。

这个函数叫做阿克曼函数,定义如下

A(m,n)={n+1m=0A(m1,1)m>0,n=0A(m1,A(m,n1))else

其之所以不是原始递归的,是因为原始递归要求一次性给出 f 的定义,因此 h 需要是与 f 无关的已经被定义好的函数。而阿克曼函数并不满足这一点。

以下几个函数对后续的证明起到了重要的作用。

命题

  • xy={xyxy0x<y 是原始递归的。

  • 一元关系 R={xx is prime} 是原始递归的。

  • (x)i 表示 x 的第 i 个素数的阶数,即

    (x)i=the exponent xi of pi in factorization x=p0x0p1x1pnxn

    f(x,i)=(x)i 是原始递归的。

证明

为证明 xy 是原始递归的,我们先证明 pred(m)=m1 是原始递归的。令

f(n1+1)=h(n1,f(n1))=n1

即可。再用 yS(x)=pred(yx) 即可。

用同样的想法,我们可以说明 If(x,y,z)={zx=0yx0 是原始递归的。

为说明 {xx is prime} 是原始递归的,我们只需要证明 [ab]={1b=ka,kN0else 是,而这可以用减法和 IsZero(x)=If(x,1,0) 做到。

为说明 (x)i 是原始递归的,我们只需要证明 p(i)=i+1-th prime 是原始递归的,而我们知道 p(i)i!+1,因此可以直接枚举这些数,并调用 [ab]

因此,对每一个有限的序列 {a0,,an},都存在一对原始递归函数 f(,,,n){f0(),f1(),fn()} 使其可以与

a=p0a0+1p1a1+1pnan+1

相互转换,也即,两者之间存在原始递归的双射。

原始递归函数 [1931, Gödel] 是早于图灵机 [1937] 的。此时 Gödel 也有想要定义所有的“可计算的”函数的想法。但原始递归函数并不包含所有“可计算的”函数。

我们通过对角化证明的方式来找出一个可计算但不是原始递归函数的例子。

对角化证明

对角化证明用于说明可数无穷多个 N 上的函数构成的的特性,通过将这个集合列成一张 N×N 的二维表格,并取对角线上的元素,构造一个新的函数,并通过判断其是否在这个集合中得到结论。

一个经典的例子是

命题

实数(无限小数)是不可数的。

证明

若可数,我们可以将所有实数列在一张二维表格里,每一行表示一个数,每一列表示一个数位,每一个格子中有一个数字 09,现在考虑构造一个新的数 ββ 的第 i 位是第 i 行第 i 列的数字向后移位一次的结果(即 +110),则 β 是一个无限小数,但是若他是表的第 k 个数,则第 k 行第 k 列的元素等于其自身的移位,矛盾。

这说明,β 不在表里。这样一张表格是不存在的。

通过类似的想法,我们可以说明原始递归函数的一个问题:其是一个在所有取值上都定义的函数。这样的函数称作 (total) 的。在一些取值上可能没有定义的函数称为部分 (partial) 的。

很明显,原始递归函数是可数无穷多的,因此我们将其列出,第 n 个函数为 ψn。现在考虑 φ(n)=ψn(n)+1,则任何 φ(n) 都是可计算的,因为可以直接调用 ψn(n),但 n,φψn,因此 φ 不可能在这张表里,因此不是原始递归函数。

如果我们放松限制,考虑不一定是全的的函数,则令 φ(n)={ψn(n)+1ψn(n) is definedundefinedψn(n) is undefined 时,我们无法导出 n,φψn。这说明所有可计算的函数有可能可以是可数无穷多的。

此时,或许一些人会说,我们考虑了一个更大的集合,却得出了可数无穷多,那我们只列举出那些全的并且可计算的函数,岂不是还是可以使用对角化证明导出矛盾?这就涉及到停机问题的不可计算性了。简单来说,在下一节对可计算函数的定义(μ-递归函数)下,判断一个一般的可计算函数是否是全函数这个任务是不可计算的,因此我们构造出的反例不是可计算的函数。

一般递归函数

原始递归函数有一个等价的描述:其推导过程中,每次递归在其进入之前便可确定递归层数,也即上文提到的,f 需要一次性被给出,f(x+1) 依赖于 f(0),f(1),,f(x) 与之前已经被定义好的函数。有一些地方会将其形容为所有的循环都是 for 循环。

但问题在于,递归的形态是不一定可以在计算之前就确定的,而是在计算过程之中才被不断确定。阿克曼函数就是一个例子,其递归层数来自于自己在更小的 case 中的计算结果。更一般地,这个动机可被形式化为

  • 无界搜索:若 θ(x1,x2,,xn,y) 是递归函数,则

    f(x1,x2,,xn)=argminyN[(θ(x1,x2,,xn,y) is defined and=0)((zy)[θ(x1,x2,,xn,z) is defined])]

    也是。

在古老的记号中,argminyN 写作 μy,因此包含原始递归的所有基本函数和法则与无界搜索法则的函数叫做 μ-递归函数,也可以叫做一般递归函数 (general recursive function)。

这样,一个递归过程可以以一个可计算函数作为停止条件。并且这个操作的可计算性是符合直观的,如同一个 while 循环。

如果不存在这样的 y,那么 f(x1,x2,,xn) 无定义。因此存在不是全函数的 μ-递归函数。

一般递归函数与图灵可计算函数的等价性

我们可以将图灵机停机时纸带最终的结果作为图灵机的输出。这样一个图灵机可以被视作一个函数的定义。这样的函数叫做图灵可计算函数。

定理 一般递归函数与图灵可计算函数等价。

一般来说,我们更信任图灵机的计算能力是完全的,因此这里只说明一般递归函数是如何模拟图灵机的。

此时,图灵机的编码需要被显式地给出,并使用原始递归函数解析。

对一个图灵机,其一条转移的五元组 (qi,sj,qk,sl,rm) (下标从 0 开始)可被编码为

p01+ip11+jp21+kp31+lp41+m

。而一个图灵机对应一个有限的五元组的序列,因此可被编码为

e=p0#(i0,j0,k0,l0,m0)p1#(i1,j1,k1,l1,m1)pn#(in,jn,kn,ln,mn)

φe(n) 为接收 n 个输入变量的标号为 e 的图灵机计算的部分函数,φe 表示 φe(1)

一条纸带 s0,1,,n 可被编码为

j=1npj1+#(sj)

一个配置 (qi,p,s1,2,,n) 可被编码为

21+i31+#(p)51+#(s1,2,,n)

一个图灵机的一个历史记录 (c0,c1,,cn) 可以被编码为

2ei=0npi+1#(ci)

定理 (Kleene's normal form theorem) 存在原始递归的判断式 (Kleene T-predicate) T(e,x,y) 和函数 U(y),使得

φe(x)=U(μy T(e,x,y))

证明

我们令 T(e,x,y) 表示 y 是否是图灵机 e 在输入 x 上的合法的历史记录,则 U 只需要提取 y 的最后一步的纸带内容。

我们可以把 y 还原为历史记录 c0,c1,,cn,因此我们只需要一个判断式 S(c0,c1,,cn) 表示其是否合法,以及一个输出 cn 的纸带函数,后者显然是原始递归的。

判断时,我们可以将 ci,ci+1 还原为状态、纸带、读写头位置。

状态是有限的,因此检查状态转移是否合法是原始递归的。

两条纸带只应在 ci 的读写头位置有区别,我们可以用上述提到的 xy 来实现判等。读写头位置同理,因为对一个参数加减一个常数是原始递归的。

因此,每个图灵机都可以被一个一般递归函数模拟。

丘奇-图灵论题

“论题” (thesis) 是说那些有些模糊,无法被形式化地声明或者验证的,但是对工作有益的猜想。

丘奇-图灵论题首先基于对可计算性的形式化描述的等价性。

  • (Gödel, Herbrand, 1933) 一般递归函数。
  • (Church, 1936) λ-演算。
  • (Turing, 1936) 图灵机。

这三份工作,都想要使用严格的数学语言刻画所有可计算的过程,而它们被严格证明是等价的。

定理 一个函数是 λ-可计算的当且仅当其是图灵可计算的,也当且仅当其是一般递归的。

之后,他们讨论了不依赖于数学定义的,作为直觉或概念上的可计算性,即能行可计算 (effective computability). 能行方法 (effective method) 的描述如下:“其每一步骤都是精确预定的,并且一定会在有限的步骤中产生答案”。

这个定理给予了当时的人一种信心,于是他们断言,

丘奇-图灵论题 (Church-Turing thesis) 能行可计算与图灵可计算一致。

也就是说,这是一种公认的信念,认为这三种等价的形式化描述准确地描绘 (characterize) 了可计算性的理念或者本性 (nature)。

这件事在图灵机上更容易被看出,图灵在其原论文中也做了一些解释。对于计算机还没有诞生的三十年代,当我们想要描述一个可操作的计算过程时,可以使用的工具是纸和笔。纸和笔对应着纸带,而操作者此时的“心灵”对应着有限自动机,这是因为当操作者严格遵循一个形式化的过程时,其下一步的操作总是取决于他目前的心灵状态与纸带上的内容,而心灵状态是有限的。可计算的函数无外乎可用纸和笔与大脑完成的计算,而其形式化后就是图灵机。

而对于一般递归函数,我们很难直接在直观意义上说明无界搜索可以涵盖全部可计算的函数。而在之后,人们在物理上实现的计算机也更像图灵机。因此在现在,递归函数已太不被人提起。

有了这种信念,我们可以直接用自然语言描述一系列操作,它一定是图灵可计算的,也一定是一般递归的。

posted @   shiys22  阅读(1364)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示