鸡尾酒会
鸡尾酒会效应(cocktail party effect)由英国认知科学家 Edward Colin Cherry 于 1953 年提出,指的是指人类的一种听力选择能力。在这种情况下,人可以把注意力集中在某一个声音刺激上,而忽略其他的背景声音。也就是说,人类可以集中在某一个人的谈话之中,而忽略背景中其他的对话或噪音。
鸡尾酒会效应的产生机制相当复杂,关于选择性注意和鸡尾酒会效应的成因,学术界提出过四个有影响力的理论模型:Broadbent 的过滤器模型、Treisman 的衰减模型、Deutsch & Deutsch 理论和 Kahneman 理论。然而,这四种理论模型都不能完美地解释“鸡尾酒会效应”出现的各种现象。
自动语音识别(ASR)的预处理,说话人识别,说话人变化检测,说话人分离,结束指向和手动转录等都需要解决“鸡尾酒会问题”,1985 年,有学者提出了盲信号分离(blindsignal separation),在不知道原始信号的信息和混合方法时,可以比较有效地恢复独立的原始信号。后辈学者通过不断改进,引入了神经网络的方法,正在逐步提高信号分离的效果。
在 AI Frontier 大会上,Nikko 博士介绍亚马逊使用的方法则是基于上下文联系的“Anchored Speech Detection”。这篇发表于 2016 年的论文中提到了两种检测目标语音的方法,首先需要用户先说出一个“anchor word”,例如唤醒词“Alexa”,作为我们学习说话者语音特征的参考。
第一种方法中,估计“anchor word”字段的平均值来标准化特征向量,从中突出低频部分相对于“anchor word”的差异。
另一种方法则是使用编码器-解码器网络,通过应用常规对数幅度因果平均值减法来归一化该网络的特征。
这两种方法实验结果表明:在具有常规归一化特征的基线前馈网络中,可以实现分类误差率大约 10% 的相对降低。
Alexa 目前还是无法做到在同一个方向多人说话的情况下,准确的判断识别到底是谁在说话。特别是对于 Alexa 采用基于能量搜索唤醒的算法模式,非常容易受到周围环境的干扰,导致噪杂环境下的唤醒失败。