编译原理_NFA-＞DFA 子集法

NFA等价的DFA子集法求解

NFA

一个不确定的有穷自动机 M 是一个五元组:

$\Sigma, f, S, Z)$

其中:

(1) $K$ 是一个有穷集, 它的每个元素称为一个状态。
(2) $\Sigma$ 是一个有穷字母表, 它的每个元素称为一个输人符号。

(3) $f$ 是一个从 $\times \Sigma^{*}$ 到 $K$ 的全体子集的映像, 即 $\times \Sigma^{*} \rightarrow 2^{K}$ , 其中 $2^{K}$ 表示 $K$ 的幂集。

(4) $\subseteq K$ , 是一个非空初态集。
(5) $\subseteq K$ , 是一个终态集。

一个含有m个状态和n 个输人符号的NFA可表示成一张状态转换图,
这张图含有m个状态结点,每个结点可射出若干条箭弧与别的结点相连接,
每条弧用 $\sum^*$ 中的一个串作标记,整个图至少含有一个初态结点以及若干个终态结点。

DFA(NFA的特例)

$它的每个元素称为一个状态。\\ (2) \Sigma 是一个有穷字母表,它的每个元素称为一个输人符号, 所以也称 \Sigma 为输人符号表。\\ (3) f 是转换函数, 是 K \times \Sigma \rightarrow K 上的映像。\\例如, f\left(k_{i}, a\right)=k_{j}\left(k_{i} \in K, k_{j} \in K\right) , \\ 就意味着, 当前状态为 k_{i} 、输人字符为 a 时, 将转换到下一状态 k_{1} , 把 k_{j} 称作 k_{i} 的一个后继状态。\\ (4) S \in K , 是唯一的一个初态。\\ (5) Z \subseteq K , 是一个终态集, 终态也称可接受状态或结束状态。\\$

正则表达式构造NFA

基础对应关系

ε对应的NFA

在这里插入图片描述

字母表Σ中符号a对应的NFA

连接&或&幂运算对应的NFA

在这里插入图片描述

对于一个长的正则表达式,先进行分解
- 从串联的角度进行分解,上述正则表达式可以分解为4个部分
- 其中第一个部分可以继续分解
- 最后,将或运算分解

求解五元组

欲求NFA N等价的DFA M,需要求出对应的DFA M的五元组

两种运算

$\varepsilon-closure运算$ 和 $m o v e$ 运算

在这里插入图片描述

(1）状态集合Ⅰ的*** $\varepsilon-闭包$ ***,表示为 $\varepsilon-closure(I)$
- 该闭包定义为一个状态集,是状态集Ⅰ中的任何状态S经任意条 $\varepsilon$ 弧而能到达的状态的集合。
- 如输入符号是空串,则自动机仍停留在原来的状态上,显然,状态集合Ⅰ的任何状态S都属于** $\varepsilon-closure(I)$ **。
(2）状态集合Ⅰ的α弧转换,表示为 $m o v e (I, a)$ ,
- 定义为状态集合J,其中J是所有那些可从Ⅰ中的某一状态经过一条α弧而到达的状态的全体。

我们把下文用到的符号捋一下:

$K,K_0,K_t$ 分别作为NFA的有穷状态集合和初始状态以及终止状态
$S,S_0,S_t$ 分别作为DFA的有穷状态集合和初始状态以及终止状态

主要部分是求解M的状态集S(其又由NFA N的状态机K的一些子集组成)
- 问题有转成求解K的子集
- 我们使用 $S_i$ 数组表示待求状态集S中的元素(状态元素)
- DFA的状态是NFA的状态集的子集

算法伪代码

注意到,这里说 $S_i$ 是有序的,S是一个集合其内部元素是无序的(书写的时候不体现顺序).
- 转换函数D(S,a)=R(此处a代表输入字符集合 $\sum$ 中的任意元素);
  - S,R是状态集合(NFA的状态子集);S,R作为DFA的状态

本图中,不确定有穷状态机N的有限状态集K包括了0,1,…10 这11种状态.;

且,状态 $K_0$ 是状态0

子集族C要表达的意思和S相近,C可能强调顺序

回顾求解子集算法

在这里插入图片描述

算法为二重循环

内层循环for比较确定
外层循环while的终止依赖于内循环for的计算结果

中的内层循环(for)是对输入符号集合(字母表)做遍历

算法伪代码中的U就是下面所说的子集 $T_i$
结合本例题,这个被遍历的输入集合是 $\sum=\{\varepsilon,a,b\}$
内部的两个抽象运算也比较简单
- $\varepsilon-closure(StateSet)$
  - 运行一次 $\varepsilon-closure()$ 运算,可以得到一个子集族中的元素 $T_i$
  - 准确的说,是下一个子集 $T_j$ 的候选集合是经过 $\varepsilon-closure$ 和move的嵌套(复合)运算得到的,当这个候选集合是想对于集合族是全新的集合时,它就成为了 $T_j$
  - 经过一次for循环的遍历,可能产生超过一个的新增子集加入到子集族 $C$
  - 同一个for循环还没走完之前,使用的都是同一个 $T_i$ (它就是while循环开头所作的被新标记的子集T)来计算新的候选子集
- $m o v e (S t a t e S e t, a)$
- 都是找出某一出边(弧)的过程前者是找 $\varepsilon$ (可以连续多次的);后者是找输入符号a(不可连续)
- 手工计算的时候,可以使用树形分叉记法(习惯看表格的话叶可以将状态转移图转化成状态转移表,然后再画树状分支,注意 $\varepsilon-closure$ 运算包含起点本身)

视频讲解

国防科技大学:编译原理Mooc系列
- Bilibili查看(相关章节)

DFA和NFA的等价性

对任何非确定的有穷自动机N ，存在定义同一语言的确定的有穷自动机D
对任何确定的有穷自动机D ，存在定义同一语言的非确定的有穷自动机N

NFA&DFA&FA&正则

NFA比DFA更加直观(对于人类而言)
另一方面,DFA在计算机实现上比NFA更容易

带有ε边的NFA

带不带空边(ε边)的NFA间具有等价性

注意,后面的状态对于前面的状态具有累计效果
以及,各个状态是否为终态

根据RE(正则表达式)构造NFA

ε对应的NFA

字母表Σ中符号a对应的NFA

输入串联
输入并联
方幂:输入循环

案例:

对于一个长的正则表达式,先进行分解
- 从串联的角度进行分解,上述正则表达式可以分解为4个部分
- 其中第一个部分可以继续分解
- 最后,将或运算分解

NFA转换为DFA

NFA与DFA的对比

在这里插入图片描述

DFA与NFA的等价性

在这里插入图片描述

获得状态集之间的转换关系
- ε-closure(I)运算
  - 我们可以用集合I来描述ε运算的结果
- move运算(和字母表(输入字符)有关)
  - 我们可以用集合J来描述(接收)move运算的计算结果
    - $J_a,J_b$
  - 千万记住,move(I,a)运算的结果 $J_a$ 只是一个中间结果,想要得到转换表中的 $I_a$ ,还必须要再次执行ε运算
  - 对于其他字母表中的字母(例如b,c,d,…),也是类似的流程
- 字母状态转换表中的Ia,Ib,Ic,…取决于文法的字母表总符号的个数
一个容易出错/疏漏的地方在于,被执行ε运算的状态(集)本身也要加入到ε计算的结果集合中,

或者说,本身集合中的元素至少要加入到ε-closure的结果集合中)(因为,我们允许经过的ε的弧数为0)

状态转换表

在这里插入图片描述

转换表实例1

在这里插入图片描述

DFA是NFA的特例

例子 2

没有ε边的NFA2DFA

(从NFA初步转换后的)DFA的每个状态都是一个由NFA中的状态构成的集合,即NFA状态集合的一个子集
对于没有ε边的状态转换表,比较简单
- 这种情况下,只需要执行move运算,而不需要考虑ε-closure运算.
当然,新的状态集合来自于状态转换表中的非空状态集,可以单独将他们整理出来,得到以下的DFA状态转换图

在这里插入图片描述

从带有ε-边的NFA到DFA的转换

在这里插入图片描述

这种带有ε边的情况下,就需要先算完move运算(作为中间结果J),然后计算J的ε-closure闭包
- 上面例题配置的状态转换表格形式比较简约,状态列依然采用NFA中的状态,
- 但是在根据该表格绘制DFA的时候,确定DFA的状态的时候,需要考察表格内的非空集合
- 并且,由于该形式的转换表不是太彻底(和例题1中的状态转换表的直观度要差一些),因此需要再稍微计算一下
  - 例题1中的转换表比较直观,但是要得到该层次的转换表,需要做的过程计算相应的要多上一些
  - 具体可以参看哈工大(编译原理)相关章节
需要注意的是,终止状态的判断,转换为DFA的每次新产生的一个状态都需要判断该状态(集合)中是否含有NFA的终止态(之一)

例子3: 识别无符号数的DFA

在这里插入图片描述

注意到,转换为DFA后,各个状态中,包含原来NFA的终止态的新状态(集合),将要作为DFA的终止态
转换过程中,主要是找到每个状态集合T(可以由 $\varepsilon-closure$ 计算得到状态集合(该运算的参数也是状态集合,特别的,状态集合可以只包含一个状态,譬如初始推导的时候))的所有可能输入(NFA中所指示的那样,但是不包括ε边)
- 譬如,(1,3,6)构成的状态集(元素个数x=3),的所有可能输入是单独看待NFA中1,3,6状态的所有可能的输入符号的并集(假设有y个互不相同的元素)
分析完输入符号集后,将状态集合中的每个状态分别尝试这些可能的输入,在最多的情况下,产生的新状态集可达到x*y个
- 但是通常不会那么多,因为,状态集中的某些状态是不接受输入符号集中的某些符号
- 另一方面,还可能发生回环,复用已有的状态
容易出错的两个方面
- DFA中的对终止态检测(遗忘该步骤)
- 对于NFA中的ε边的疏漏