摘要:本文来自公众号“AI大道理” 声学模型的训练一般是基于极大似然准则(ML),然而ML只考虑正确路径的优化训练,没有考虑降低其他路径的分数,因此识别效果不佳。区分性训练目标是提高正确路径得分的同时降低其他路径的得分,加大这些路径间的差异,因此识别效果更好。 1 互信息 区分性训练的其中一个常用准则叫M
阅读全文
摘要:本文来自公众号“AI大道理” GMM-HMM建模能力有限,无法准确的表征语音内部复杂的结构,所以识别率低。 随着深度学习的崛起,研究人员将其逐步应用于语音识别中。 最开始便是DNN代替了GMM来进行观察状态概率的输出,实现DNN-HMM声学模型框架,大大提高了识别率。 1 GMM-HMM与DNN-H
阅读全文
摘要:本文来自公众号“AI大道理”。 把HMM、语言模型N-gram、发音词典、上下文相关转化成WFST,再进行合成得到一个巨大的WFST。对这个巨大的WFST进行确定化、权重移动、最小化等优化,得到一个浓缩的包含各种约束的网络。语音识别就变成在一个WFST的搜索问题了,使用Viterbi的集束搜索得到最
阅读全文
摘要:点击上方“AI大道理”,选择“置顶”公众号 为了让识别出来的语音符合常规语言表达,引入了语言模型作为约束。 为了加速解码识别效率又引入了WFST解码机制。 解码本质:解码就是在网络中寻找最优路径。 解码方式多种多样,各有优缺点。 (注:on-the-fly Rescoring 归为动态解码有待
阅读全文