【笔记】DLHLP - 李宏毅 - 3 - 语音识别 - Part 2 LAS

语音识别模型：

语音识别模型主要分为两种，一种是基于seq2seq的，一种是基于HMM的。
seq2seq的模型主要有LAS，CTC，RNN-T，Neural Transducer，MoChA。

本节讲最流行的LAS，就是Listen，Atten，and Spell，典型的seq2seq+attention的自编码模型。

1. Listen：

编码器会把输入的一串声学特征，转换为高维隐层嵌入。它的主要目标是提取出内容信息，过滤掉说话者的嗓音变化和环境噪音。
编码器我们可以用CNN和RNN，也可以是CNN+RNN，也可以用self-attention。

Down Sampling：

因为一段声音讯号太长了，而且相邻向量间，带有重复的信息。为了节省计算量，我们可以用:
1）Pyramid RNN: 在每一层的RNN输出后，都做一个聚合操作。把两个向量加起来，变成一个向量。
2）Pooling Over time: 两个time step的向量，只选其中一个，输入到下一层。
3）Time-delay DNN: 是CNN常用的一个变形。通常CNN是计算一个窗口内每个元素的加权之和，而TDDNN则只计算第一个和最后一个元素。
4）Truncated self-attention: 是自注意力的一个变形。通常自注意力会对一个序列中每个元素都去注意，而Truncated的做法是只让当前元素去注意一个窗口内的元素。

2. Attention：

在编码器和解码器中间的Attention层中，有个\(z^0\)的参数是query，而Encoder输出的隐层嵌入的每个位置的向量\(h^i\)都是key，注意力的计算方式就是这两者经过线性变换后的点积。
如果采用的是Additive Attention，则是这两个向量线性变换后相加再通过tanh，再经一次线性变换后得到注意力分数。
每个位置的注意力分数经过softmax，对\(h^i\)加权求和，就可以得到一个归一化的分布\(c^0\)。

3. Spell：

这个归一化的分布向量和之前的\(z^0\)会作为解码器RNN的输入，输出是隐层\(z^1\)，和一个对词表V中所有可能词预测的概率分布向量。我们取max就可以解码得到最可能的第一个token。
再拿\(z^1\)与原编码器的隐层向量做注意力，得到一个新的注意力分布\(z^2\)。它与\(c^1\)一同输入给RNN，同样的方式就能解码得到第二个token。
以此类推，直到解码得到的token是一个终止符，就结束。

Beam Search:

如果我们每次都选择最大概率的方向，贪心策略并不能保证生成整个序列的概率是最优的。而且在实际中，词表通常很大，没有办法去搜索穷尽所有的可能路径。
解决这个问题的一种策略就是使用Beam Search，它是窗口大小为K的贪心搜索。从每个节点我们都保留K个最好的路径，一直往下。

Teacher Forcing：

训练时，我们的标签是序列长度为N的one-hot向量。它会与解码器RNN第一步输出的大小为词表V的概率分布计算交叉熵损失。
在进行下一步RNN解码时，上一步的正确标签c会替代最大概率的\(c^0\)进行解码。这个技术叫作Teacher Forcing。

为什么要这么做？因为最开始的时候模型是从随机开始训练的，解码器的表现很差，输出的东西是乱的，会影响后续解码步骤的效果。
也就是说，前面解码的结果会影响后面，如果前面的结果很长时间都不正确，这会导致后面的解码步骤很难学到真正正确的信息。
所以最好的方式就是不要理睬RNN的输出，用正确标签去指导它去做下一步的预测。

两种注意力：

之前的注意力阶段，我们每次是用解码器的输出隐层去与编码器的输出做注意力。
除此以外，还有另一种做注意力的方式。
我们把解码器的隐层\(z^t\)拿出来与\(h^i\)做注意力得到\(c^t\)。这个\(c^t\)不是保留到下一个时间才使用，而是在当前时间点立刻使用。我们把\(z^t\)和\(c^t\)丢给解码器RNN，得到新分布\(z^{t+1}\)。
这两种注意力的区别在，注意力得到的结果是下一个时间使用还是当前时间使用。第一篇拿Seq2Seq做语音识别的论文，用的是二者的合体版本。

语音识别是否非要用注意力不可呢？
注意力最早是用在Seq2Seq翻译上解决源语言与目标语言的对齐问题。
这个弹性很大的注意力，在语音上用会有种杀鸡焉用牛刀的赶脚。因为语音上，每次注意跳跃是有限的。而不会出现像机器翻译那样，开头注意到结尾的的大跳跃情况。
我们可以用Location-aware attention来优化。我们的注意力不能够随便乱跳，而是要考虑前一个时间步得到的注意力权重影响。
我们把t之前的注意力权重\(α^0\)到\(α^{t-1}\)的向量，做一个线性映射后再输入给解码RNN。这样模型就能学到，每解码出一个token，注意力就要往右移动一点。

LAS模型需要在海量数据集上训练，和一些调参技巧，与传统方法相比才会有显著提升。但LAS有另一个好处是，它的模型参数可以比传统方法变得很小。

LAS的注意力可视化出来发现，即便没有用Location-aware attention，模型也可以自己学到这样的注意规律。
还有一个有趣的发现，模型能够自动识别出aaa和triple a是对应一样的声音讯号。这可以解释为，二者的上下文经常一样。 LAS可以学到复杂的输入讯号和输出讯号的关系。

LAS模型也可以用语言模型LM来提升。不过LAS本身很强，在给足训练集的情况下，不用LM来优化也是能表现很好的。
我们还可以用LAS模型来训练把闽南话语音翻译成中文字幕，或者是很多电影里面自动把英语语音翻译成中文字幕。
即便背景音存在音乐和音效，语音和字幕有时没有对齐，我们都可以无需去管。直接海量数据，深度学习模型硬train一发，以上问题统统都能自动解决。

LAS的局限：

LAS虽然神通广大，但它也有一些问题。我们期待我们的模型可以做online的识别，即能够一边听，一边做语音识别。而不是模型听完整句话后，等上一秒，模型才输出辨识结果。
之后要讲的模型，就是解决LAS的这个问题。

posted @ 2020-07-06 20:14 Yanqiang 阅读(1767) 评论(0) 编辑收藏举报

刷新页面返回顶部

Morfeo

github.com/YanqiangWang

【笔记】DLHLP - 李宏毅 - 3 - 语音识别 - Part 2 LAS

公告