AI大语音（十二）——WFST解码器（下）（深度解析）

本文来自公众号“AI大道理”。

把HMM、语言模型N-gram、发音词典、上下文相关转化成WFST，再进行合成得到一个巨大的WFST。
对这个巨大的WFST进行确定化、权重移动、最小化等优化，得到一个浓缩的包含各种约束的网络。
语音识别就变成在一个WFST的搜索问题了，使用Viterbi的集束搜索得到最优路径，即识别结果。

1 WFST的源头

源头：
1）有限状态接收器FSA（Finite State Acceptor）
FSA弧上有“输入”信息，随着状态的不断转移，可以判断能否接收特定的符号串。

这个FSA可以接收ab*c，如abc,abbc等等，不能接收acb、abcd等字符串。

2）带权重的有限状态接收器WFSA（Weighted Finite State Acceptor）
WFST弧上有 “输入符号/权重” ，可以接收特定的字符串，同时还能输出权重信息。

如果输入了abbc，则对应的权重值为0.3*0.5*0.5*0.7=0.0525

3）有限状态转换器FST（Finite State Transducer）
FST弧上有 “输入：输出” 信息，当接收了特定字符串后，输出另外一个特定字符串。

如果输入了abbc，则输出xyyz。

4）权有限状态转换器WFST（Weighted Finite State Transducer）
WFST弧上有“输入：输出/权重”。

当输入abbc时，输出xyyz，同时输出权重值0.3*0.5*0.5*0.7=0.0525。

2 WFST的表示

定义一个WFST。

T=(A,B,Q,I,F,E,λ,ρ)
T：表示一个在数集K上的WFST，
A：表示一个有限的输入集，
B：表示一个有限的输出集，
Q：表示一个有限的状态集，
I：表示一个有限的初始状态集I⊆Q，
F：表示一个有限的结束状态集F⊆Q，
E：表示一个有限的状态转移集E⊆Q×(A⋃{ϵ})×(B⋃{ϵ})×K×Q，（输入输出可为空ϵ）
λ：表示初始状态的权重。

ρ：表示结束状态的权重，
E[q]：表示离开状态q的所有状态转移的集合。

p[e]：表示这个转移的出发状态，n[e]：表示这个转移的到达状态，
i[e]：表示这个转移上的输入label，o[e]：表示这个转移上的输出label，w[e]：表示这个转移上的权重值。
那么，一条路径（path）就是一连串的转移，π=e1⋯ek

并且满足n[ei−1]=p[ei],i=2,⋯,k，p[π]=n[e1],n[π]=n[ek]。

一整条路径的权重w[π]等于各个状态转移上的权重相⨂：w[π]=w[e1]⨂⋯⨂w[ek];
那么多个有限路径集合的权重w[R]就等于每条路径的权重相⨁：w[R]=⨁π∈Rw[π]。

一个规范的(regulated)WFST可以表示为：

其中，P(p,x,y,q)表示从状态p到q，输入为x输出为y。

3 合成算法（Composition）

Composition将两个不同级的WFST进行组合。
语音识别中发音词典的WFST是音素对词的映射，而语言模型的WFST是词对受语法约束的词的映射，那么两个WFST进行Composition后就变成了音素对受语法约束的词的映射。

效果：

算法：

首先把两个WFST的初始状态赋给状态集Q、队列S。
Q用来统计出现过的所有状态对的集合。
S用来记录此时的状态对能达到的所有状态对的集合。
把队列S的头元素赋给状态对（q1，q2），用Dequeue(S)取出状态。
判断是否为结束状态，如果是就把该状态加入到最终状态集合F中去。
找出所有离开T1中:状态q1的所有转移和离开T2中的状态q2的所有转移，并且对比T1的这些转移的输出label是否等于T2的这些转移的输入label（o[e1]=i[e2]），
如果等于的话则则判断他们的目的状态是否在Q中（之前说了Q是统计所有出现过的状态，那么此时的含义就是判断是否出现了新状态）。
如果是新状态的话则将它加入到Q和S的集合中，
compostion的操作，状态对（q1，q2）到状态对（n[e1],n[e2]）的转移，转移上的输入标签是i[e1]，输出标签是o[e2]，权重是w[e1]⨂w[e2]
把这个转移加入到转移集合E中。
继续取出状态，直到队列S为空。

流程：