声纹识别技术初步了解(阅读笔记)

1. 声纹识别分类

1.1 按任务分类

声纹识别技术按照其所要识别的任务及应用场景主要分成两类:声纹验证(speaker verification)及声纹辨认(speaker identification 或speaker matching)。

1.1.1 声纹验证(speaker verification)

声纹验证流程:

声纹注册(speaker registration)或声纹录入(voice enrollment)

有目标说话人(target speaker)事先提供音频样本,通过特定的算法,从音频样本中提取能够表征该目标说话人声纹特征的说话人模型(模板);

模板匹配

对于一段新的音频,能够将其与目标说话人模型(模板)进行匹配,得到一个匹配分数,可以将该匹配分数与某个实现设定好的阈值进行比较,并根据最后的比较结果进行二值判别。

1.1.2 声纹辨认(speaker identification 或 speaker matching)

限定在特定的候选说话人(candidate speakers)集合之中,记集合中候选说话人个数为M。将没有冒名顶替者的声纹辨认称为“闭集”声纹辨认,而将可能会有冒名顶替着的声纹辨认称为“开集”声纹辨认。如果是开集辨认,需要额外将最高的分数与某个事先设定好的阈值进行比较,若是最高分数低于该阈值,则辨别为冒名顶替者。

声纹辨认对应的应用场景主要是个性化。对于声纹辨认,通常认为M,任务越难,识别准确率也会越低;声纹验证通常不存在这个问题。

1.2 按文本内容分类

按照识别的内容可以分为三类:文本相关(textdependent)的声纹识别、文本无关(text-independent)的声纹识别,以及文本提示型(text-prompted)的声纹识别。

1.2.1 文本相关

文本相关的声纹识别,通常称为“固定文本”的声纹识别。

问题的简化之处在于两点:

  • 录入的音频及待识别的音频包含着完全相同的音节。声纹识别模型的建立,只需要对有限的几个音节进行建模即可。
  • 可以假设待识别的音频长度被限制在某个有限的变化范围内,甚至是固定的时间长度。

在实际应用中,文本相关的声纹识别系统主要用于唤醒词或验证口令的声纹识别。

1.2.2 文本无关

无论说话人说的什么内容,都要能够识别出说话人的身份,根据是否限定特定语言,可分为语言相关和语言无关。

难点在于:

  • 声纹录入时用户提供的音频与验证时的音频,其所对应的文本不同;
  • 训练时难以同时覆盖所有说话人和所有内容;
  • 无论是声纹录入还是实际的验证,由于文本内容的不确定性,我们无法预知用户将要提供的音频的具体长度,需要能够处理不同长度的音频,并比较其声纹相似度;

文本无关的声纹识别技术的应用更加广泛。

1.3 系统流程

说话人模型”或者“声纹模型”,通常指的是声纹建模过程的输出,是通过声纹录入阶段得到的。将说话人模型称为声纹嵌入码(embedding),而将声纹建模过程本身所依赖的模型称为声纹编码器(encoder)。

参考链接:
[1] 声纹技术:从核心算法到工程实践

posted @ 2022-12-26 19:48  longRookie  阅读(354)  评论(0编辑  收藏  举报
最简单即最美
有了信仰,自己要坚持努力 2017.07.09 21:34