随笔档案「2021年1月」 - AI大道理

AIBigKaldi（十四）| Kaldi的特征转换模型（源码解析）

摘要：本文来自公众号“AI大道理”。三音子模型词错误率为：36.03%，对比单音素模型词错误率为50.58%。可见三音素模型识别率已经有了提高。能否继续优化模型？又要从哪些方面入手进行优化呢？特征变换带来一定的改善。语音识别中，为了增强音频特征的鲁棒性，需要提取区分能力较强的特征向量，常用的方法阅读全文

posted @ 2021-01-23 21:20 AI大道理阅读(399) 评论(0) 推荐(0)

AIBigKaldi（十三）| Kaldi的三音子模型训练（下）（源码解析）

摘要：本文来自公众号“AI大道理”。程序acc-tree-stats累积好了构建决策树所需的统计量，程序cluster-phones和compile-questions自动生成好了构建决策树所需的问题集，也准备好了roots.int文件。接下来可以开始构建决策树，对三音素GMM的状态进行绑定。以ka 阅读全文

posted @ 2021-01-20 21:18 AI大道理阅读(389) 评论(0) 推荐(0)

AIBigKaldi（十二）| Kaldi的三音子模型训练（中）（源码解析）

摘要：本文来自公众号“AI大道理”。上文已经累计了相关统计量phone的特征均值、方差、phone所出现的语音帧数量。接下来利用统计量自动生成问题集。问题集的生成是为了构造决策树对三音子模型进行状态绑定。以kaldi的thchs30为例。 5 三音子模型训练过程之道: 5.2 自动生成问阅读全文

posted @ 2021-01-17 20:09 AI大道理阅读(273) 评论(0) 推荐(0)

AIBigKaldi（十一）| Kaldi的三音子模型训练（上）（源码解析）

摘要：本文来自公众号“AI大道理”。单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单，识别结果不能达到最好，因此需要继续优化升级。就此引入多音子的模型。最为熟悉的就是三音子模型，即上下文相关的声学模型。（本篇主要解析kaldi源码实现，详细算法原阅读全文

posted @ 2021-01-12 21:39 AI大道理阅读(448) 评论(0) 推荐(0)

AIBigKaldi（十）| Kaldi的thchs30实例（源码解析）

摘要：本文来自公众号“AI大道理”。单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单，识别结果不能达到最好，因此需要继续优化升级。就此引入多音子的模型。最为熟悉的就是三音子模型，即上下文相关的声学模型。在YesNo实例中没有进行三音子的模型训练。阅读全文

posted @ 2021-01-08 22:53 AI大道理阅读(607) 评论(0) 推荐(1)

01 2021 档案

AIBigKaldi（十四）| Kaldi的特征转换模型（源码解析）

AIBigKaldi（十三）| Kaldi的三音子模型训练（下）（源码解析）

AIBigKaldi（十二）| Kaldi的三音子模型训练（中）（源码解析）

AIBigKaldi（十一）| Kaldi的三音子模型训练（上）（源码解析）

AIBigKaldi（十）| Kaldi的thchs30实例（源码解析）

导航

公告