摘要:本文来自公众号“AI大道理”。 三音子模型词错误率为:36.03%,对比单音素模型词错误率为50.58%。 可见三音素模型识别率已经有了提高。 能否继续优化模型?又要从哪些方面入手进行优化呢? 特征变换带来一定的改善。 语音识别中,为了增强音频特征的鲁棒性,需要提取区分能力较强的特征向量,常用的方法
阅读全文
摘要:本文来自公众号“AI大道理”。 程序acc-tree-stats累积好了构建决策树所需的统计量,程序cluster-phones和compile-questions自动生成好了构建决策树所需的问题集,也准备好了roots.int文件。 接下来可以开始构建决策树,对三音素GMM的状态进行绑定。 以ka
阅读全文
摘要:本文来自公众号“AI大道理”。 上文已经累计了相关统计量phone的特征均值、方差、phone所出现的语音帧数量。 接下来利用统计量自动生成问题集。 问题集的生成是为了构造决策树对三音子模型进行状态绑定。 以kaldi的thchs30为例。 5 三音子模型训练 过程之道: 5.2 自动生成问
阅读全文
摘要:本文来自公众号“AI大道理”。 单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单,识别结果不能达到最好,因此需要继续优化升级。就此引入多音子的模型。 最为熟悉的就是三音子模型,即上下文相关的声学模型。 (本篇主要解析kaldi源码实现,详细算法原
阅读全文
摘要:本文来自公众号“AI大道理”。 单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单,识别结果不能达到最好,因此需要继续优化升级。就此引入多音子的模型。 最为熟悉的就是三音子模型,即上下文相关的声学模型。 在YesNo实例中没有进行三音子的模型训练。
阅读全文