声纹识别的评价指标(读书笔记)
对于声纹识别技术,需要有统一的指标来衡量这些系统之间的优劣。声纹识别领域中通常使用等错率等指标来衡量一个系统的识别性能。
常见的声纹识别系统在识别阶段主要包括特征提取、声纹建模、相似匹配和判别这四个模块。
1. 相似匹配模块
相似匹配模块通常有两个输入:
- 来自验证音频的声纹模型;
- 来自目标说话人的声纹模型;
输出:一个实数,称为匹配分数(score)。
假设需要匹配的声纹模型可以表示为两个嵌入码向量\(e_1\)与\(e_2\),那相似匹配可以采取以下几种形式:
1.1 余弦相似度(cosine similarity)
该相似度表示\(e_1\)与\(e_2\)这两个向量在多维空间中的夹角的余弦值。如果\(e_1\)和\(e_2\)是单位向量,则余弦相似度简化为这两个单位向量的点积。余弦相似度的取值范围在\([-1,1]\),便于选取全局的判别阈值,因此余弦相似度是声纹识别中最常用的相似匹配方法。
1.2 欧式距离(Euclidean distance)
最终的匹配分数可以取欧式距离的倒数或其它单调递减的变换。
1.3 神经网络
通过可训练的神经网络或者支持向量机等机器学习模型实现更复杂的相似匹配函数\(f\left(e_{1}, e_{2} \mid \theta\right)\),这里\(\theta\)表示机器学习模型\(f(\cdot)\)的参数集合。
2. 评价指标
2.1 测试集
声纹识别所用的测试数据集,每个说话人都会有多段不同的语音(utterance),其中一部分将用于录入,另一部分用于识别。一般需要将测试集分割为两个互不重叠的子集:录入集(enrollment set)与验证集(verification set)。录入集与验证集都需要涵盖测试集中全部说话人,但对于每一个说话人,这两个子集需要包含来自该说话人的不同语音。
训练数据集必须不能包括任何在测试集中出现过的说话人。
2.2 ROC 曲线
ROC曲线,即接收者操作特征曲线(receiver operating characteristic curve),是
参考资料:
[1] 声纹技术: 从核心算法到工程实践