使用分布外数据去除不需要的特征贡献,提高模型的稳健性
深度神经网络 (DNN) 已经发展到现在已经可以在计算机视觉和自然语言处理等许多任务上表现非常出色。而现在主要的研究是如何训练这些 DNN 以提高其准确性。准确性的主要问题是神经网络极易受到对抗性扰动的影响。
例如下面的图片,添加噪声之前和之后的两张图像对我们来说似乎相同。但对于神经网络来说,右边的图像是一个完全不同的对象——熊猫。添加到图像中的噪声是一种对抗性扰动,我们将试图通过使这些神经网络不易受扰动来解决这个问题的训练方法将被称为对抗性训练。
由于最近提出的使用未标记分布 (UID) 数据的数据增强方法,对抗性训练的缺乏训练数据的问题已被分解决了。但是它还存在一些缺点:缺乏可用性和对伪标签生成器准确性的依赖。
为了弥补这些缺点并提高对抗性和标准学习的泛化能力,论文提出了一种使用分布外 (OOD) 数据的数据增强方法:分布外数据增强训练 (OAT)。
什么是对抗训练?
为了理解为什么需要分布外数据增强训练来提高 DNN 的准确性和效率,首先要了解对抗性训练是什么以及为什么它很重要。
对抗性训练是指包含对抗性攻击图像作为其训练数据集的训练过程。对抗性训练的目标是让 DNN 更加健壮——让机器学习模型更不容易受到扰动的影响。
半监督学习方法
在对抗训练中需要比标准训练更多的数据集。所以仅使用标记数据是不够的,使用标记和未标记数据的混合指的就是半监督学习方法。
- 监督学习:仅使用标记数据作为其数据集
- 半监督学习:使用一些标记数据和大量未标记数据作为其数据集
- 无监督学习:仅使用未标记的数据作为其数据集
完整文章:
https://www.overfit.cn/post/29019f18a5894def8ccb022b5a4ba239
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)