12 2020 档案

AIBigKaldi(九)| Kaldi的解码搜索(源码解析)
摘要:本文来自公众号“AI大道理”。 ​ 构建了HCLG解码图后,解码就是在这个图上寻找一条最优路径。 最优路径上去除epsilon后的输出标签序列就是单词级别的识别结果。 (本篇主要解析kaldi源码实现,详细算法原理请阅读: AI大语音(十一)——WFST解码器(上)(深度解析)) 1 解码 5 de 阅读全文

posted @ 2020-12-29 09:34 AI大道理 阅读(616) 评论(0) 推荐(0) 编辑

AIBigKaldi(八)| Kaldi的解码图构造(下)(源码解析)
摘要:本文来自公众号“AI大道理”。 L.fst与G.fst经过合成、确定化、最小化、权重推移和随机性检查后成为了LG.fst。紧接着加入C,构造了CLG.fst。接下来继续加入H,构造HCLG.fst。 (本篇主要解析kaldi源码实现,详细算法原理请阅读 AI大语音(十二)——WFST解码器(下)(深 阅读全文

posted @ 2020-12-28 20:12 AI大道理 阅读(453) 评论(0) 推荐(0) 编辑

AIBigKaldi(七)| Kaldi的解码图构造(上)(源码解析)
摘要:本文来自公众号“AI大道理”。 上篇训练完了单音子模型。不管模型好坏先进行解码试试效果。解码之前首先要构建解码图,即HCLG.fst。(本篇主要解析kaldi源码实现,详细算法原理请阅读 AI大语音(十二)——WFST解码器(下)(深度解析)) 1 解码图构造 4 mkgraph.sh ​ 源码解析 阅读全文

posted @ 2020-12-28 16:43 AI大道理 阅读(794) 评论(0) 推荐(0) 编辑

AIBigKaldi(六)| Kaldi的单音子模型训练(下)(源码解析)
摘要:本文来自公众号“AI大道理”。 构造好训练图接下来就可以进行训练了。所谓训练就是在训练图上进行解码,获得最优路径的同时得到对齐序列,根据对齐序列进行统计信息量。转移概率可以进行数数获得,GMM参数随着对齐的帧数变化而更新,同时GMM分量从一开始的单高斯split出更多的高斯。如此不断迭代训练获得单音 阅读全文

posted @ 2020-12-20 22:44 AI大道理 阅读(299) 评论(0) 推荐(0) 编辑

AIBigKaldi(五)| Kaldi的单音子模型训练(上)(源码解析)
摘要:本文来自公众号“AI大道理” 提取了MFCC特征,并进行倒谱均值方差归一化,数据检查无误后就可以进行模型训练了。 首先进行的是单音素模型训练,然后进行三音子模型训练。 单音子模型为后期训练提供对齐基础。以kaldi中的yesno为例。​ 1 单音子模型训练 3 train_mono.sh ​ 源码解 阅读全文

posted @ 2020-12-20 22:01 AI大道理 阅读(424) 评论(0) 推荐(0) 编辑

AIBigKaldi(四)| Kaldi的特征提取(源码解析)
摘要:本文来自公众号“AI大道理”。 准备好了数据,接下来就可以特征提取了。最常用到的语音特征就是梅尔倒谱系数(Mel-scaleFrequency Cepstral Coefficients,简称MFCC)。以最简单的YesNo为例。​ 1 run.sh 特征提取步骤: MFCC提取过程包括预处理、快速 阅读全文

posted @ 2020-12-13 17:01 AI大道理 阅读(697) 评论(0) 推荐(0) 编辑

OfficialKaldi(二十九)| Kaldi的特征提取(翻译注解)
摘要:介绍 我们的特征提取和波形读取代码旨在创建标准的MFCC和PLP功能,设置合理的默认值,但保留人们最可能想要调整的选项(例如,梅尔箱的数量,最小和最大频率截止,等等)。此代码仅从包含pcm数据的.wav文件中读取。这些文件通常后缀为.wav或.pcm(尽管有时将.pcm后缀应用于sphere文件;在 阅读全文

posted @ 2020-12-12 23:59 AI大道理 阅读(385) 评论(0) 推荐(0) 编辑

OfficialKaldi(九)——Kaldi的项目历史(翻译注解)
摘要:卡尔迪(Kaldi)在2009年约翰·霍普金斯大学(Johns Hopkins University)研讨会上的存在开始变得笨拙,该研讨会的标题为“开发成本低,新语言和新领域的高质量语音识别”(请参阅致谢)。 该项目的重点是基于子空间高斯混合模型(SGMM)的建模以及对词典学习的一些研究。现在开始在 阅读全文

posted @ 2020-12-12 23:42 AI大道理 阅读(217) 评论(0) 推荐(0) 编辑

OfficialKaldi(八)——Kaldi的编码样式(翻译注解)
摘要:当开始编码Kaldi工具箱的最终版本时,我们决定将OpenFst用作C ++库。 为了与OpenFst保持一致,我们决定在大多数方面使用相同的编码样式。 通过查看代码,可以明显看出Kaldi编码样式的许多方面。关键点包括: 标记命名规则,例如MyTypeName,MyFunction,my_clas 阅读全文

posted @ 2020-12-12 23:39 AI大道理 阅读(82) 评论(0) 推荐(0) 编辑

OfficialKaldi(八)——Kaldi的编码样式(翻译注解)
摘要:当开始编码Kaldi工具箱的最终版本时,我们决定将OpenFst用作C ++库。 为了与OpenFst保持一致,我们决定在大多数方面使用相同的编码样式。 通过查看代码,可以明显看出Kaldi编码样式的许多方面。关键点包括: 标记命名规则,例如MyTypeName,MyFunction,my_clas 阅读全文

posted @ 2020-12-12 23:38 AI大道理 阅读(138) 评论(0) 推荐(0) 编辑

OfficialKaldi(七)| Kaldi编译过程(翻译注解)
摘要:该页面以一般术语描述了Kaldi构建过程的工作方式。 另请参见外部矩阵库,以获取有关矩阵代码如何使用外部库以及由此产生的链接错误的说明;下载和安装Kaldi可能也很有趣。 Windows上的构建过程 Windows的构建过程与类似UNIX的系统的构建过程是分开的,并且在Windows / INSTA 阅读全文

posted @ 2020-12-12 21:57 AI大道理 阅读(314) 评论(0) 推荐(0) 编辑

OfficialKaldi(六)| 数据准备(翻译注解)
摘要:介绍 在运行完示例脚本后(见Kaldi教程),你可能会想用自己的数据在Kaldi上跑一下。本节主要讲述如何准备相关数据。本页的读者应该使用最新版本的实例脚本(即在脚本目录下被命名为s5的那些,例如 egs/rm/s5)。 另外,除了阅读本页所述内容外,你还可以阅读脚本目录下的那些数据准备相关的脚本。 阅读全文

posted @ 2020-12-12 21:06 AI大道理 阅读(475) 评论(0) 推荐(0) 编辑

AIBigKaldi(三)| Kaldi的数据准备(源码解析)
摘要:本文来自公众号“AI大道理”。 正所谓巧妇难为无米之炊。对于语音识别任务来说,对于Kaldi来说,数据就是这个米。 在进行特征提取、模型训练之前,首先要做的就是数据准备。以最简单的YesNo为例。 1 YesNo实例结构 ​ 其中: 文件夹 ​ 脚本 ​ 2 脚本解析 cmd.sh ​ 源码解读: 阅读全文

posted @ 2020-12-12 11:03 AI大道理 阅读(530) 评论(0) 推荐(0) 编辑

AIBigKaldi(二)| Kaldi的I/O机制(源码解析)
摘要:本文来自公众号“AI大道理”。 作为传统语音识别神器,kaldi拥有自己一套独特的输入输出机制。先来感受一下吧。 feats="ark,s,cs:apply-cmvn $cmvn_opts --utt2spk=ark:$sdata/JOB/utt2spk scp:$sdata/JOB/cmvn.sc 阅读全文

posted @ 2020-12-11 15:08 AI大道理 阅读(285) 评论(0) 推荐(0) 编辑

OfficialKaldi(十四)| 从命令行角度来看Kaldi的 I / O
摘要:此页面从命令行工具用户的角度描述了Kaldi中的I / O机制。 有关更多代码级概述,请参见Kaldi I / O机制。 总览 非表I / O 我们首先描述“非表” I / O。这是指仅包含一个或两个对象的文件或流(例如,声学模型文件;转换矩阵),而不是由字符串索引的对象的集合。 Kaldi文件格式 阅读全文

posted @ 2020-12-11 10:54 AI大道理 阅读(198) 评论(0) 推荐(0) 编辑

OfficialKaldi(十三)| Kaldi的I/O机制(翻译注解)
摘要:Kaldi I/O 机制 本页概述了Kaldi的输入输出机制。 本文档的这一部分面向I/O的代码级机制;有关更多面向命令行的文档,请参阅Kaldi I/O from a command-line perspective. kaldi中的类的IO接口 Kaldi中定义的类具有统一的I/O接口。标准接口 阅读全文

posted @ 2020-12-11 10:13 AI大道理 阅读(260) 评论(0) 推荐(0) 编辑

OfficialKaldi(五)| 专业术语(翻译注解)
摘要:该页面包含Kaldi用户可能想要了解的术语词汇表。 这里的当前内容仅由几个示例组成。不久将添加更多内容。在此页面中搜索的最简单方法是使用浏览器的搜索功能。为了方便起见,每个术语部分的定义都在冒号之前,然后是冒号,因此,例如,键入ctrl -f“:lattice:”将带您进入“ lattice”部分。 阅读全文

posted @ 2020-12-11 00:00 AI大道理 阅读(241) 评论(0) 推荐(0) 编辑

OfficialKaldi(五)| 示例脚本(翻译注解)
摘要:入门和前提条件。 本教程的下一阶段是开始运行资源管理示例脚本。将目录更改为顶层(我们将其称为kaldi-1),然后更改为egs /。查看该目录中的README.txt文件,尤其是查看“资源管理”部分。它提到了与语料库相对应的LDC目录号。这可以帮助您从LDC获取数据。如果由于某种原因而无法获取数据, 阅读全文

posted @ 2020-12-10 11:18 AI大道理 阅读(360) 评论(0) 推荐(0) 编辑

OfficialKaldi(五)| Kaldi教程(翻译注解)
摘要:1 先决条件 2 入门(15分钟) 3 使用Git进行版本控制(5分钟) 4 分发概述(20分钟) 5 运行示例脚本(40分钟) 6 读取和修改代码(30分钟) 1 先决条件 本教程假定您了解使用HMM-GMM方法进行语音识别的基础知识。在线提供的一个简短介绍是:M。Gales和S. Young(2 阅读全文

posted @ 2020-12-10 11:15 AI大道理 阅读(463) 评论(0) 推荐(0) 编辑

AIBigKaldi(一)| Kaldi的目录结构(源码解析)
摘要:本文来自公众号“AI大道理”。 Kaldi是使用c++写的传统语音识别的工具,是基于HMM架构的。Kaldi的目标和范围与HTK相似。目标是拥有易于修改和扩展的用C++编写的现代而灵活的代码。 Kaldi的目标是为构建语音识别系统提供完整的配方,这些配方可从语言数据库(LDC)提供的数据库中获得。 阅读全文

posted @ 2020-12-10 09:05 AI大道理 阅读(688) 评论(0) 推荐(0) 编辑

OfficialKaldi(四)| 法律相关(翻译注解)
摘要:这不是法律文件;请参阅发行版中的COPYING文件。 在此页面中,我们解释法律内容的含义(据我们所知)。 Kaldi中的代码和其他内容(例如脚本,文档)是根据Apache许可版本2.0发布的。Apache许可证是一种流行的“类似于BSD”的许可证。这意味着您可以免费使用Kaldi并重新分发它,甚至用 阅读全文

posted @ 2020-12-03 09:26 AI大道理 阅读(147) 评论(0) 推荐(0) 编辑

OfficialKaldi(三)| 安装和运行Kaldi所需软件(翻译注解)
摘要:理想的计算环境 首先,我们将说明理想的计算环境类型,然后说明运行Kaldi所需的最低要求。理想的计算环境是运行Sun GridEngine(SGE)的Linux计算机集群(任何主要发行版),并且可以通过NFS或某些类似的网络文件系统访问共享目录。在理想情况下,网格上的某些计算机将具有NVidia G 阅读全文

posted @ 2020-12-03 09:14 AI大道理 阅读(344) 评论(0) 推荐(0) 编辑

OfficialKaldi(二)| 下载并安装Kaldi(翻译注解)
摘要:现在,我们已过渡到GitHub以进行所有未来开发。您首先需要安装Git。可以通过在shell中键入以下内容来下载Kaldi的最新版本,其中可能包括未完成的和实验性的功能: git clone https://github.com/kaldi-asr/kaldi.git kaldi --origin 阅读全文

posted @ 2020-12-02 23:57 AI大道理 阅读(185) 评论(0) 推荐(0) 编辑

OfficialKaldi(一)| 关于Kaldi项目(翻译注解)
摘要:什么是卡尔迪? Kaldi是使用C ++编写的语音识别工具包,并根据Apache License v2.0获得许可。Kaldi供语音识别研究人员使用。有关更详细的历史记录和贡献者列表,请参见Kaldi项目的历史记录。 卡尔迪(Kaldi)这个名字 根据传说,卡尔迪是埃塞俄比亚的牧羊人,发现了咖啡植物 阅读全文

posted @ 2020-12-02 23:43 AI大道理 阅读(309) 评论(0) 推荐(0) 编辑

导航