AI大道理 - 博客园

AIBigKaldi（十四）| Kaldi的特征转换模型（源码解析）

摘要：本文来自公众号“AI大道理”。三音子模型词错误率为：36.03%，对比单音素模型词错误率为50.58%。可见三音素模型识别率已经有了提高。能否继续优化模型？又要从哪些方面入手进行优化呢？特征变换带来一定的改善。语音识别中，为了增强音频特征的鲁棒性，需要提取区分能力较强的特征向量，常用的方法阅读全文

posted @ 2021-01-23 21:20 AI大道理阅读(325) 评论(0) 推荐(0) 编辑

AIBigKaldi（十三）| Kaldi的三音子模型训练（下）（源码解析）

摘要：本文来自公众号“AI大道理”。程序acc-tree-stats累积好了构建决策树所需的统计量，程序cluster-phones和compile-questions自动生成好了构建决策树所需的问题集，也准备好了roots.int文件。接下来可以开始构建决策树，对三音素GMM的状态进行绑定。以ka 阅读全文

posted @ 2021-01-20 21:18 AI大道理阅读(312) 评论(0) 推荐(0) 编辑

AIBigKaldi（十二）| Kaldi的三音子模型训练（中）（源码解析）

摘要：本文来自公众号“AI大道理”。上文已经累计了相关统计量phone的特征均值、方差、phone所出现的语音帧数量。接下来利用统计量自动生成问题集。问题集的生成是为了构造决策树对三音子模型进行状态绑定。以kaldi的thchs30为例。 5 三音子模型训练过程之道: 5.2 自动生成问阅读全文

posted @ 2021-01-17 20:09 AI大道理阅读(232) 评论(0) 推荐(0) 编辑

AIBigKaldi（十一）| Kaldi的三音子模型训练（上）（源码解析）

摘要：本文来自公众号“AI大道理”。单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单，识别结果不能达到最好，因此需要继续优化升级。就此引入多音子的模型。最为熟悉的就是三音子模型，即上下文相关的声学模型。（本篇主要解析kaldi源码实现，详细算法原阅读全文

posted @ 2021-01-12 21:39 AI大道理阅读(387) 评论(0) 推荐(0) 编辑

AIBigKaldi（十）| Kaldi的thchs30实例（源码解析）

摘要：本文来自公众号“AI大道理”。单音子模型的假设是一个音素的实际发音与其左右的音素无关。这个假设与实际并不符合。由于单音子模型过于简单，识别结果不能达到最好，因此需要继续优化升级。就此引入多音子的模型。最为熟悉的就是三音子模型，即上下文相关的声学模型。在YesNo实例中没有进行三音子的模型训练。阅读全文

posted @ 2021-01-08 22:53 AI大道理阅读(554) 评论(0) 推荐(1) 编辑

AIBigKaldi（九）| Kaldi的解码搜索（源码解析）

摘要：本文来自公众号“AI大道理”。构建了HCLG解码图后，解码就是在这个图上寻找一条最优路径。最优路径上去除epsilon后的输出标签序列就是单词级别的识别结果。（本篇主要解析kaldi源码实现，详细算法原理请阅读： AI大语音（十一）——WFST解码器（上）（深度解析）） 1 解码 5 de 阅读全文

posted @ 2020-12-29 09:34 AI大道理阅读(579) 评论(0) 推荐(0) 编辑

AIBigKaldi（八）| Kaldi的解码图构造（下）（源码解析）

摘要：本文来自公众号“AI大道理”。 L.fst与G.fst经过合成、确定化、最小化、权重推移和随机性检查后成为了LG.fst。紧接着加入C,构造了CLG.fst。接下来继续加入H,构造HCLG.fst。（本篇主要解析kaldi源码实现，详细算法原理请阅读 AI大语音（十二）——WFST解码器（下）（深阅读全文

posted @ 2020-12-28 20:12 AI大道理阅读(440) 评论(0) 推荐(0) 编辑

AIBigKaldi（七）| Kaldi的解码图构造（上）（源码解析）

摘要：本文来自公众号“AI大道理”。上篇训练完了单音子模型。不管模型好坏先进行解码试试效果。解码之前首先要构建解码图，即HCLG.fst。（本篇主要解析kaldi源码实现，详细算法原理请阅读 AI大语音（十二）——WFST解码器（下）（深度解析）） 1 解码图构造 4 mkgraph.sh 源码解析阅读全文

posted @ 2020-12-28 16:43 AI大道理阅读(774) 评论(0) 推荐(0) 编辑

AIBigKaldi（六）| Kaldi的单音子模型训练（下）（源码解析）

摘要：本文来自公众号“AI大道理”。构造好训练图接下来就可以进行训练了。所谓训练就是在训练图上进行解码，获得最优路径的同时得到对齐序列，根据对齐序列进行统计信息量。转移概率可以进行数数获得，GMM参数随着对齐的帧数变化而更新，同时GMM分量从一开始的单高斯split出更多的高斯。如此不断迭代训练获得单音阅读全文

posted @ 2020-12-20 22:44 AI大道理阅读(287) 评论(0) 推荐(0) 编辑

AIBigKaldi（五）| Kaldi的单音子模型训练（上）（源码解析）

摘要：本文来自公众号“AI大道理” 提取了MFCC特征，并进行倒谱均值方差归一化，数据检查无误后就可以进行模型训练了。首先进行的是单音素模型训练，然后进行三音子模型训练。单音子模型为后期训练提供对齐基础。以kaldi中的yesno为例。 1 单音子模型训练 3 train_mono.sh 源码解阅读全文

posted @ 2020-12-20 22:01 AI大道理阅读(409) 评论(0) 推荐(0) 编辑