01 2021 档案

AIBigKaldi(十四)| Kaldi的特征转换模型(源码解析)
摘要:本文来自公众号“AI大道理”。 三音子模型词错误率为:36.03%,对比单音素模型词错误率为50.58%。 可见三音素模型识别率已经有了提高。 能否继续优化模型?又要从哪些方面入手进行优化呢? 特征变换带来一定的改善。 语音识别中,为了增强音频特征的鲁棒性,需要提取区分能力较强的特征向量,常用的方法 阅读全文

posted @ 2021-01-23 21:20 AI大道理 阅读(336) 评论(0) 推荐(0) 编辑

AIBigKaldi(十三)| Kaldi的三音子模型训练(下)(源码解析)
摘要:本文来自公众号“AI大道理”。 程序acc-tree-stats累积好了构建决策树所需的统计量,程序cluster-phones和compile-questions自动生成好了构建决策树所需的问题集,也准备好了roots.int文件。 接下来可以开始构建决策树,对三音素GMM的状态进行绑定。 以ka 阅读全文

posted @ 2021-01-20 21:18 AI大道理 阅读(337) 评论(0) 推荐(0) 编辑

AIBigKaldi(十二)| Kaldi的三音子模型训练(中)(源码解析)
摘要:本文来自公众号“AI大道理”。 上文已经累计了相关统计量phone的特征均值、方差、phone所出现的语音帧数量。 接下来利用统计量自动生成问题集。 问题集的生成是为了构造决策树对三音子模型进行状态绑定。 以kaldi的thchs30为例。 ​5 三音子模型训练 过程之道: ​ ​5.2 自动生成问 阅读全文

posted @ 2021-01-17 20:09 AI大道理 阅读(243) 评论(0) 推荐(0) 编辑

AIBigKaldi(十一)| Kaldi的三音子模型训练(上)(源码解析)
摘要:本文来自公众号“AI大道理”。 单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单,识别结果不能达到最好,因此需要继续优化升级。就此引入多音子的模型。 最为熟悉的就是三音子模型,即上下文相关的声学模型。 (本篇主要解析kaldi源码实现,详细算法原 阅读全文

posted @ 2021-01-12 21:39 AI大道理 阅读(407) 评论(0) 推荐(0) 编辑

AIBigKaldi(十)| Kaldi的thchs30实例(源码解析)
摘要:本文来自公众号“AI大道理”。 单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单,识别结果不能达到最好,因此需要继续优化升级。就此引入多音子的模型。 最为熟悉的就是三音子模型,即上下文相关的声学模型。 在YesNo实例中没有进行三音子的模型训练。 阅读全文

posted @ 2021-01-08 22:53 AI大道理 阅读(569) 评论(0) 推荐(1) 编辑

导航