笔记-2022.05.26
推荐的架构包括一个深度特征提取器(绿色)和一个深度标签预测器(蓝色),它们共同构成一个标准的前馈架构。无监督的领域适应是通过添加一个领域分类器(红色)来实现的,该分类器通过一个梯度反转层与特征提取器相连,在基于反向传播的训练过程中,梯度乘以某个负常数。否则,训练将以标准方式进行,并使标签预测损失(对于源实例)和领域分类损失(对于所有样本)最小化。
核心思路:同时学习分类器
随着训练的进行,该方法促进了:
- 对源域上的主要学习任务具有鉴别性的深层特征的出现
- 关于域之间的迁移具有不变性
理论保证
介绍
当训练和测试数据来自同一分布时,用于分类的判别性学习方法表现良好。然而,我们往往有来自源域的大量标记的训练数据,但希望学习一个在目标域中表现良好的分类器,而目标域的分布不同,标记的训练数据很少或没有。在这项工作中,主要研究了两个问题:
- 在什么条件下,从源数据中训练出来的分类器可以预期在目标数据上表现良好
- 给定少量标记的目标数据,我们应该如何在训练期间将其与大量标记的源数据相结合,以便在测试时达到最低的目标误差
距离
Ben-David在2010年提出了
-
距离: :表示“上确界”,即最小上界。- 如果两个分类器
和 ,利用 对 都进行分类。 - 如果说对于任意的
和 ,在 上的分类结果在与 上的分类结果都非常相似。 - 那么就认为
和 之间是非常相似的,也就认为 和 的距离非常接近。
- 如果两个分类器
-
利用这个概念,我们可以得到一个概率约束,即在目标域上评估T中的某个分类器h的性能
,因为它在源域上的性能是 。泛化误差上界:其中
和 分别是源分布和目标分布, 不依赖于特定的 。考虑在由特征提取器
和标签预测器集合 产生的表示空间上的固定 和 。我们假设领域分类器的集合 足够丰富,包含 的对称差异假设集。这并不是一个不现实的假设,因为我们可以自由选择我们想要的
。例如,我们可以把领域判别器的结构设定为逐层连接两个标签预测器的副本,然后是一个旨在学习XOR函数的两层非线性感知器。鉴于假设成立,我们可以很容易地表明,训练 与 的估计密切相关。其中,
由 最大化。最优判别器给出了
的上限,同时,反向梯度的反向传播改变了表示空间,使 变得更小,有效地减少了 ,使得 被 更好地接近。
深度域适应
模型
假设模型的输入样本是
最终目标是能够预测给定目标分布的输入
我们现在定义一个深度前馈架构,对于每个输入x预测其标签
- 特征提取器
:将输入映射到一个 维的特征向量 。- 权重参数定义为
,
- 权重参数定义为
- 标签预测器
:将特征向量 映射到标签 。- 权重参数定义为
。
- 权重参数定义为
- 域分类器
:将特征向量 映射到标签 。- 权重参数定义为
。
- 权重参数定义为
在学习阶段,目标是使训练集的源域部分的标签预测损失最小化,因此,特征提取器和标签预测器的参数都被优化,以使源域样本的经验损失最小化。这就保证了特征
与此同时,要使特征
在训练时,为了获得域不变的特征,寻求特征映射的参数
其中,
寻找使公式(1)达到鞍点参数
反向优化
鞍点(2)-(3)可以作为以下随机更新的静止点被找到:
其中
更新
幸运的是,这种减少可以通过引入一个特殊的梯度反转层(GRL)来实现,定义如下。梯度反转层没有与之相关的参数(除了元参数
上面定义的GRL被插入到特征提取器和领域分类器之间,形成了图1中描述的结构。当反向传播过程通过GRL时,GRL后的损失(
其中I是一个特性矩阵。然后我们可以定义
运行更新
参考资料
论文:Unsupervised Domain Adaptation by Backpropagation
[1]DANN:用对抗的方法生成特征,优化目标域泛化误差上界
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix