Google Duo采用WaveNetEQ填补语音间隙
Refer to: https://blog.csdn.net/vn9PLgZvnPs1522s82g/article/details/105304072
Abstract
Google Duo (移动设备视频通话服务)发现,其99%的呼叫需要处理数据包丢失、抖动过多或网络延迟等问题。
在这些通话中,有20%因为网络问题损失了3%以上的音频持续时间,而10%的通话则损失了至少8%的音频。
为了确保可靠的实时通信,有必要处理丢失的数据包,这个过程被称为PLC。接收方的PLC负责创建音频(或视频),以填补由丢包、过度抖动或临时网络故障造成的空白(所有这三种情况都会导致数据丢失)。
为了解决这些音频问题,Google Duo开始使用全新的PLC系统WaveNetEQ。
WaveNetEQ是基于DeepMind的WaveRNN技术生成的模型,使用大量语音数据集进行训练,以更为逼真地延续短语音段,从而使其能够完全合成丢失语音的原始波形。
该模型将应用于Duo抖动缓冲区中的音频数据。
丢包事件发生后,如果真实音频仍然存在,Duo将无缝合并合成的、真实的音频流。为了找到两个信号之间的最佳对准,该模型的输出要比实际所需要的输出多一些,并从一个到另一个交叉淡入淡出。这样可使过渡平滑,并避免明显的噪音。