OfficialKaldi（一）| 关于Kaldi项目（翻译注解）

什么是卡尔迪？

Kaldi是使用C ++编写的语音识别工具包，并根据Apache License v2.0获得许可。Kaldi供语音识别研究人员使用。有关更详细的历史记录和贡献者列表，请参见Kaldi项目的历史记录。

卡尔迪（Kaldi）这个名字

根据传说，卡尔迪是埃塞俄比亚的牧羊人，发现了咖啡植物。

Kaldi与其他工具箱

Kaldi的目标和范围与HTK相似。目标是拥有易于修改和扩展的用C ++编写的现代而灵活的代码。重要功能包括：

与有限状态传感器（FST）的代码级集成

我们根据OpenFst工具箱（将其用作库）进行编译。

广泛的线性代数支持

我们包括一个包装标准BLAS和LAPACK例程的
矩阵库
。

可扩展的设计

我们尽可能以最通用的形式提供算法。例如，我们的解码器被模板化在一个对象上，该对象提供由（帧，fst-input-symbol）元组索引的分数。这意味着解码器可以从任何合适的分数源（例如神经网络）工作。

公开许可证

该代码是根据Apache 2.0许可的，Apache 2.0是可用的限制最少的许可证之一。

完整食谱

我们的目标是为构建语音识别系统提供完整的配方，这些配方可从语言数据库（LDC）提供的数据库中获得。

发布完整食谱的目标是Kaldi的重要方面。由于该代码是根据允许修改和重新发布的许可证公开提供的，因此，我们鼓励人们以与Kaldi自己的示例脚本类似的格式发布其代码以及脚本目录。

在给定时间限制的情况下，我们试图使Kaldi的文档尽可能完整，但是短期内我们不希望生成与HTK一样详尽的文档。特别是，HTKBook中有很多入门材料，它们为未入门者介绍了统计语音识别，这可能永远不会出现在Kaldi的文档中。Kaldi的许多文档都是以这样的方式编写的，即只有专家才能使用。考虑到我们的目标受众是语音识别研究人员或培训中的研究人员，将来我们希望使其更易于使用。通常，Kaldi并不是用于“假人”的语音识别工具包。它将允许您执行许多没有意义的操作。

卡尔迪的味道

在本节中，我们尝试总结Kaldi工具包的一些更通用的品质。在某种程度上，这描述了当前开发人员的目标，并描述了项目的当前状态。这并不意味着排除工作风格不同的研究人员的贡献。

我们强调通用算法和通用配方

所谓“通用算法”，是指诸如线性变换之类的事物，而不是某种特定于语音的事物。但是，如果更具体的算法有用，我们就不会太教条。
我们希望可以在任何数据集上运行的配方，而不是必须定制的配方。

我们更喜欢证明正确的算法

配方的设计原则上永远不会以灾难性的方式失败。一直在努力避免可能会失败的配方和算法，即使它们在“正常情况下”也不会失败（例如：FST推压，通常可以帮助但可能导致崩溃或使某些情况变得更糟）情况）。

Kaldi代码已经过全面测试。

目标是使所有或几乎所有代码都具有相应的测试例程。

我们试图使简单的情况保持简单。

在构建大型语音工具包时，存在代码可能成为很少使用的替代品的危险。我们试图通过以下方式构造工具箱来避免这种情况。每个命令行程序通常只适用于少数情况（例如，解码器可能仅适用于GMM）。因此，当您添加新类型的模型时，您将创建一个新的命令行解码器（调用相同的基础模板代码）。

Kaldi代码很容易理解。

即使整个Kaldi工具包可能变得非常庞大，我们的目标还是要使它的每个部分都易于理解，而无需付出太多努力。如果可以提高某些部分的易理解性，我们将接受一些代码重复。

Kaldi代码易于重用和重构。

我们的目标是使工具包尽可能松散地耦合。通常，这意味着任何给定的标头都应#include尽可能少的其他标头文件。特别是矩阵库仅依赖于另一个子目录中的代码，因此它几乎可以独立于所有Kaldi其余部分使用。

项目状况

当前，我们拥有用于大多数标准技术的代码和脚本，包括所有标准线性变换，MMI，增强型MMI和MCE判别训练，以及特征空间判别训练（例如fMPE，但基于增强型MMI）。我们为《华尔街日报》和《资源管理》以及《总机》提供了工作食谱。由于词汇和语言模型问题，“配电盘”配方尚未提供最新的结果–为此，我们不使用任何外部数据源。

注意：在我们打算将版本号用于Kaldi的主要发行版（“ v1”等）的早期阶段之后，我们意识到这些类型的发行版与自然的开发风格不太吻合，这是非常连续的。当前，我们仅维护“ master”开发分支，这是您应该使用的版本。另外，经常执行“ git pull”以保持其最新状态。有关更多详细信息，请参见下载和安装Kaldi。

参考论文中的Kaldi

如果您想在论文中引用Kaldi，可以使用以下参考。

@INPROCEEDINGS { Povey_ASRU2011， 作者= {Povey，Daniel和Ghoshal，Arnab和Boulianne，Gilles和Burget，Lukas和Glembek，Ondrej和Goel，Nagendra和Hannemann，Mirko和Motlicek，Petr和Qian，Yanmin和Schwarz，Petr和Silovsky，Jan和Stemmer，Georg还有Vesely，Karel}， 关键字= {ASR，自动语音识别，GMM，HTK，SGMM}， 月=十二月 title = {卡尔迪语音识别工具包}， booktitle = {IEEE 2011自动语音识别和理解研讨会”， 年= {2011}， 发布者= {IEEE信号处理协会}， 位置= {美国夏威夷大岛希尔顿唯客乐渡假村}， note = {IEEE目录号：CFP11SRW-USB}， }

——————
浅谈则止，细致入微AI大道理
扫描下方“AI大道理”，选择“关注”公众号
—————————————————————

​​
—————————————————————
投稿吧  | 留言吧

posted on 2020-12-02 23:43 AI大道理阅读(376) 评论(0) 收藏举报

刷新页面返回顶部

OfficialKaldi（一）| 关于Kaldi项目（翻译注解）

导航

公告