AIBigKaldi（十三）| Kaldi的三音子模型训练（下）（源码解析）

本文来自公众号“AI大道理”。

程序acc-tree-stats累积好了构建决策树所需的统计量，程序cluster-phones和compile-questions自动生成好了构建决策树所需的问题集，也准备好了roots.int文件。

接下来可以开始构建决策树，对三音素GMM的状态进行绑定。

以kaldi的thchs30为例。

5 三音子模型训练

过程之道:

5 .3 建立决策树

5.3.1 build-tree.cc

给定EventType（三音素+HMM state-id），通过决策树得到这个EventType对应的p.d.f.的pdf-id。

功能：

建立决策树tree。

输入：累积的统计量treeacc、问题集questions.qst、roots.int、topo

输出：决策树tree

源码解析：

其中roots.int：

roots文件指明在决策树的聚类过程中，哪些音素应该共享树根。

对放在roots文件同一行的音素共享一个树根，并且roots的每一行需指明下述两件事。

1）shared or not-shared

roots文件中有两种“共享”。

一种是roots文件中位于同一行的音素共享同一个决策树。

另一种是在每一行前指定”shared”，对不同HMM状态共享同一个决策树。

对一个音素的每个HMM状态都应该建立一个决策树：若一个音素都包含3个HMM状态，则其需要建立三个决策树。

若指定”shared”，则Kaldi使三个HMM状态上的决策树共享同一个树根。

若指定”not-shared”，则Kaldi为三个HMM状态分别建立决策树树根。

2）split or not-split

“split”或”not-split”说的是，是否应该对当前的决策树树根进行划分。

如果该行指明”split”，则对决策树进行划分；如果该行指明”not-split”，则对该决策树不进行任何划分。

a1共享一个决策树根，并且该行音素的不同HMM状态也共享(”shared”)一个决策树根。

程序过程：

函数解析：

函数过程：

函数中的函数：

GetStubMap()

得到初始的决策树EventMap *tree_stub，也就是扩展前的决策树。

扩展前的决策树的一个叶子结点对应roots.int中的一行的决策树的树根。

假如有63个音素需要构建63个决策树。(thchs30中为218个）

Kaldi决定这63个决策树也用一棵决策树D表示——D有63个叶子结点，每个叶子结点都作为63个决策树的树根。

灵魂的拷问：这是在做什么呢？

答：其实可以不这么做，单独保存63个决策树也可以，但是这样显然不方便，因此用树的结构把这些树保存在一颗树的叶子节点上。

分裂就是简单的对半分，只是为了让数据一个一个排列保存。

FliterStatsByKey()

只把在roots.int中指定为split的音素的统计量留下，把指定为not-split的音素的统计量丢弃。

因为roots.int里面都是split，所以这一步什么都没做。

SplitDecisionTree()

对tree_stub进行扩展，生成整个大的决策树EventMap *tree_split：把tree_stub的每个叶子结点扩展成决策树，对每一个音素生成实际的决策树。

参数input_map就是扩展前的决策树tree_stub，其一个叶子结点表示一个音素。（确切来说是roots.int中同一行的音素集合，但因为其共享同一个决策树，暂且称该音素集为一个音素）。

对tree_stub的每个叶子结点、也就是每个音素构建一棵决策树，实现状态绑定，减少GMM参数。

对决策树持续进行划分，直到总的叶子结点数目到达max_leaves，或者所有叶子结点中的最优划分带来的最大似然提升都小于thresh。

对三音素进行问问题：

ClusterEventMapRestrictedByMap()

对tree_split每个音素的决策树上的某些叶子结点进行合并，得到EventMap *tree_clustered。

合并前的CE均有不同的answer_，也就是pdf-id不同，合并后某些CE的answer_相同，相同则说明这些叶子结点合并了。

RenumberEventMap()

对tree_clustered的叶子结点重新编号（从0开始），得到EventMap *tree_renumbered，这就是我们最终得到的完整的决策树。

把tree_renumbered返回到主程序build-tree。

决策树构建结果：

说明：

ContextDependency 3 1：表示音素宽度N_(=3)、中间音素位置P_(=1)
TE 1 219：TE表示决策树树根。1表示对中间音素进行划分，219表示划分完后总共有219个结点。

实际上我们只有218个音素(1-218)，但代码中计算的是0-218，所以总共有219个结点。NULL就是0对应的结点。
SE -1 [0 1]：SE表示决策树的非叶子结点，-1表示该结点是对hmm state进行提问；[0 1]表示提的问题是”该三音素的hmm state是0或1吗“。
CE 0：CE表示决策树的叶子结点 0表示该叶子结点的编号(在kaldi中叫pdf-id)

使用命令查看决策树：

/kaldi-trunk/src/bin/draw-tree phones.txt tree|dot -Tpdf >tree.pdf