Wav2Vec 2.0 Part2(人工智能)的应用

的应用 Wav2Vec 2.0 Part2(人工智能)

Photo by 蒂姆·马歇尔 on 不飞溅

1.探索fine-tuning数据对wav2vec 2.0模型盲语音质量预测的影响( arXiv )

作者 : 赫拉德·贝塞拉 , 亚历山德罗·拉加诺 , 安德鲁·海因斯

抽象的 : 最近的研究表明,自监督模型如何产生准确的语音质量预测。由预训练的 wav2vec 2.0 模型生成的语音表示允许使用少量注释数据构建稳健的预测模型。这开启了在标记数据稀缺的情况下开发强大模型的可能性。众所周知,微调可以提高模型的性能;但是,尚不清楚用于微调的数据(例如语言、样本数量)如何影响该性能。在本文中,我们探讨了使用不同的语音语料库对 wav2vec 2.0 进行微调如何影响其性能。我们采用了四个语音数据集,其中包含常见会议应用程序中发现的降级,以及针对不同语言和数据大小场景的微调 wav2vec 2.0。微调后的模型在所有四个会议数据集以及一个包含合成语音的附加数据集上进行了测试,并将它们与三个外部基线模

2. 基于 Wav2vec 2.0 特征的使用音频词袋方法的家庭婴儿发声复杂序列的可视化( arXiv )

作者 : Jialu Li , 马克长谷川-约翰逊 , 南希·L·麦克尔文

抽象的 : 在美国,估计大约 15-17% 的 2-8 岁儿童患有至少一种被诊断为精神、行为或发育障碍的疾病。然而,此类疾病通常未被诊断出来,并且在生命的最初几年评估和治疗疾病的能力是有限的。为了分析婴儿的发育变化,先前的研究表明,高级 ML 模型擅长对使用手机、视频或仅音频记录设备(如 LENA)收集的婴儿和/或父母发声进行分类。在这项研究中,我们对我们开发的一种名为 LittleBeats (LB) 的新型婴儿可穿戴多模式设备的音频组件进行了试点测试。与仅记录音频和/或提供说话者分类标签的其他平台相比,LB 音频管道的先进之处在于它为说话者分类和发声分类任务提供了可靠的标签。我们利用 wav2vec 2.0 通过 LB 系列音频流获得更出色和更细微的结果。我们使用带有 wav2vec 2.0 功能的音频词袋方法来创建高级可视化,以了解家庭-婴儿发声交互。我们展示了我们的高质量可视化捕获了主要类型的家庭发声交互,在指示心理、行为和发育健康的类别中,用于标记和未标记的 LB 音频

3.探索 Wav2vec 2.0 微调以改进语音情感识别( arXiv )

作者 : Li-Wei Chen , 亚历山大·鲁德尼基

抽象的 : 虽然 wav2vec 2.0 已被提议用于语音识别 (ASR),但它也可用于语音情感识别 (SER);使用不同的微调策略可以显着提高其性能。首先介绍了两种基线方法,香草微调 (V-FT) 和任务自适应预训练 (TAPT)。我们展示了 V-FT 能够在 IEMOCAP 数据集上优于最先进的模型。现有的 NLP 微调策略 TAPT 进一步提高了 SER 的性能。我们还介绍了一种称为 P-TAPT 的新型微调方法,它修改了 TAPT 目标以学习上下文化的情绪表示。实验表明,P-TAPT 的性能优于 TAPT,尤其是在低资源设置下。与该文献中的先前工作相比,我们的顶级系统在未加权准确度 (UA) 上实现了 7.4% 的绝对改进,超过了 IEMOCAP 的最新性能。我们的代码是公开的。

版权声明:本文为博主原创文章,遵循 CC 4.0 BY-SA 版权协议,转载请附上原文出处链接和本声明

本文链接:https://www.qanswer.top/37220/14571710

posted @ 2022-09-17 10:17  哈哈哈来了啊啊啊  阅读(479)  评论(0编辑  收藏  举报