[论文阅读] Domain Agnostic Learning with Disentangled Representations

Domain Agnostic Learning with Disentangled Representations

1. Introduction

本文研究了领域不可知论学习(DAL),这是一个比较困难但实际的问题,即知识从一个标记的源领域转移到多个未标记的目标领域。领域不可知学习的主要挑战是:(1)目标数据具有混合的领域,这阻碍了主流特征对齐方法的有效性(Long et al., 2015;Sun & Saenko, 2016;Saito et al., 2018)和(2)类无关信息导致负迁移(Pan & Yang, 2010),特别是当目标领域高度异构时。

我们假设一个领域可知论学习的解决方案不仅应该学习源和目标之间的不变性,而且还应该积极地从图像中的剩余信息中分离出特定于类的特征。众所周知,深度神经网络可以提取多个隐藏因素高度纠缠的特征(Bengio et al., 2013)。最近的工作试图通过对抗性训练来解开自编码器潜在空间中的特征(Cao等人,2018;刘等,2018b;Odena等人,2017;Lee et al., 2018)。然而,上述模型在将从一个领域学习到的特征转移到异构目标领域的能力有限。Liu等人(2018a)提出了一种框架,该框架将来自多个域的样本作为输入,并通过对抗性训练获得域不变的潜在特征空间。当应用于DAL任务时,该模型受到两个因素的限制。首先,它只将嵌入分解为领域不变特征和领域特定特征(如天气条件),并丢弃后者,但没有明确地尝试将类相关特征与类无关特征(如背景)分离开来。其次,不能保证领域不变特征与领域特定特征完全分离。

为了解决上述问题,我们提出了一种新的深度对抗解纠缠自编码器(DADA),旨在通过同时从领域特定特征和类无关特征中解纠缠领域不变特征来解决领域不可知学习问题。首先,除了域解纠缠(Liu et al., 2018a;Cao et al., 2018;Lee等人,2018),我们使用类解纠缠来去除与类无关的特征,如图1所示。类解纠缠以对抗的方式进行训练:在标记的源域上训练类标识符,解纠缠器生成特征来欺骗类标识符。据我们所知,我们是第一个证明类解缠提高领域自适应性能的人。其次,为了增强解纠缠,我们提出最小化解纠缠特征之间的互信息。我们实现了一个神经网络来估计解纠缠特征分布之间的互信息,灵感来自最近发表的理论工作(Belghazi et al., 2018)。在标准图像识别数据集上的综合实验表明,我们推导的解纠缠表示在领域不可知论学习任务上取得了显著的进步。

本文的主要贡献如下:

1)提出了一种新的领域不可知论学习范式;

2)我们开发了端到端深度对抗解纠缠自编码器(DADA),它学习了更好的解纠缠特征表示来解决任务;

3)我们提出了类解纠缠来去除分类相关特征,并最小化互信息来增强解纠缠。

Representation Disentanglement

学习解纠缠表示的目的是对数据变化的因素进行建模。近期作品(Mathieu et al., 2016;Makhzani et al., 2016;刘等,2018a;Odena等人,2017)旨在使用生成式对抗网络(GANs)学习可解释的表示(Goodfellow等人,2014;Kingma et al., 2014)和变分自编码器(VAEs) (Rezende et al., 2014;Kingma & Welling, 2013)。在完全监督的情况下,Lee等人(2018)提出将特征表示分解为领域不变的内容空间和领域特定的属性空间,在没有成对训练图像的情况下产生不同的输出。另一项工作(Odena et al., 2017)提出了一种辅助分类器GAN (AC-GAN)来实现表征解纠缠。尽管这些方法有很好的性能,但它们都侧重于在单个域中解纠缠表示。Liu等人(2018a)引入了一个统一的特征解纠缠器,从跨多个域的数据中学习域不变表示。然而,他们的模型假设在训练过程中有多个可用的源域,这限制了其实际应用。相比之下,我们的模型基于一个源域和多个未知目标域来解纠缠,并提出了一种改进的解纠缠方法,该方法考虑了类标签和特征之间的相互信息。

Agnostic Learning

之前有几项关于不可知论学习的研究与我们的工作有关。模型不可知元学习(model - agnostic Meta-Learning, MAML) (Finn et al., 2017)的目标是在各种学习任务上训练模型,并仅使用少数训练样例解决新任务。与MAML不同的是,我们的方法主要侧重于将知识转移到异构领域。Carlucci等人(2018a)提出了一种学习框架,通过增量架构中的像素适应,将知识从多源领域无缝扩展到不可见的目标领域。Romijnders等人(2018)为对抗性UDA引入了一个领域不可知的规范化层,并在不可见的领域上提高了深度模型的性能。虽然结果很有希望,但我们认为仅对特征表示进行规范化是不够的,提取解纠缠的领域不变特征和领域特定特征也很重要。

3. DADA: Deep Adversarial Disentangled Autoencoder

我们定义领域不可知学习任务如下:给定一个源域 \(\widehat{\mathcal{D}}_s=\left\{\left(\mathbf{x}_i^s, y_i^s\right)\right\}_{i=1}^{n_s}\),其中包含 \(n_s\) 个带标签的示例,目标是在 \(N\) 个没有领域标签的目标域 \(\widehat{\mathcal{D}}_t=\left\{\widehat{\mathcal{D}}_1, \widehat{\mathcal{D}}_2, \ldots, \widehat{\mathcal{D}}_N\right\}\) 上最小化风险。我们将目标域表示为 \(\widehat{\mathcal{D}}_t=\left\{\mathbf{x}_j^t\right\}_{j=1}^{n_t}\),其中包含 \(n_t\) 个未标记的示例。在经验上,我们希望最小化目标风险 \(\epsilon_t(\theta)=\operatorname{Pr}_{(\mathbf{x}, y) \sim \widehat{\mathcal{D}}_t}[\theta(\mathbf{x}) \neq y]\),其中 \(\theta(\mathbf{x})\) 是分类器。

image-20240403204508602

我们建议通过学习既具有判别性又不受领域影响的特征来解决这个任务。图1展示了提出的模型。特征生成器 \(G\) 将输入图像映射到一个特征向量 \(f_G\),其中包含许多高度纠缠的因素。解缠器 \(D\) 负责将特征 \(\left(f_G\right)\) 解缠成领域不变的特征 \(\left(f_{d i}\right)\)、领域特定的特征 \(\left(f_{d s}\right)\) 和与类别无关的特征 \(\left(f_{c i}\right)\)。特征重构器 \(R\) 旨在从 \(\left(f_{d i}, f_{d s}\right)\)\(\left(f_{d i}, f_{c i}\right)\) 中恢复 \(f_G\)\(D\)\(R\) 被实现为变分自编码器中的编码器和解码器。在 \(f_{d i}\)\(f_{c i}\) 之间以及 \(f_{d i}\)\(f_{d s}\) 之间应用互信息最小化,以增强解缠。通过领域识别器的对抗训练,在 \(f_{d i}\) 空间中对齐源域和异构目标域。一个类别识别器 \(C\) 在带标签的源域上进行训练,以预测类别分布 \(f_C\) 并对抗地提取类别无关的特征 \(f_{c i}\)。接下来我们详细描述每个组件。

Variational Autoencoders

VAE(Kingma & Welling, 2013)是一类深度生成模型,同时训练概率编码器和解码器。编码器被训练为生成大致遵循高斯分布的潜在向量。在我们的情况下,我们通过应用以下目标函数的VAE架构来学习我们解缠表示的每个部分:

\[\mathcal{L}_{\text {vae }}=\left\|\widehat{f}_G-f_G\right\|_F^2+K L\left(q\left(z \mid f_G\right) \| p(z)\right), \tag{1} \]

其中第一项旨在恢复由 \(G\) 提取的原始特征,第二项计算 Kullback-Leibler 散度,惩罚潜在特征与先验分布 \(p\left(z_c\right)\)(因为 \(z \sim \mathcal{N}(0, I)\))之间的偏差。然而,这种性质不能保证领域不变特征与领域特定特征或与类别无关的特征很好地解缠,因为方程式1中的损失函数仅将潜在特征对齐到正态分布。

Class Disentanglement

为了解决上述问题,我们采用类别解缠的方法以对抗的方式消除与类别无关的特征,例如背景。首先,我们训练解缠器 \(D\)\(K\) 分类标识器 \(C\) 来正确预测标签,由交叉熵损失监督:

\[\mathcal{L}_{c e}=-\mathbb{E}_{\left(x_s, y_s\right) \sim \widehat{\mathcal{D}}_s} \sum_{k=1}^K \mathbb{1}\left[k=y_s\right] \log \left(C\left(f_D\right)\right) \]

其中 \(f_D \in\left\{f_{d i}, f_{c i}\right\}\)

在第二步中,我们固定类别标识器,并训练解缠器 \(D\) 通过生成类别无关的特征 \(f_{c i}\) 来欺骗类别标识器。这可以通过最小化预测类别分布的负熵来实现:

\[\mathcal{L}_{\text {ent }}=-\frac{1}{n_s} \sum_{j=1}^{n_s} \log C\left(f_{c i}^j\right)-\frac{1}{n_t} \sum_{j=1}^{n_t} \log C\left(f_{c i}^j\right) \]

其中第一项和第二项分别表示在源域和异构目标域上最小化熵。以上对抗训练过程迫使相应的解缠器提取类别无关的特征。

域解纠缠

为了解决领域不可知的学习任务,分离与类无关的特征是不够的,因为它无法使源领域与目标领域保持一致。为了实现更好的对齐,我们进一步提出将学习到的特征分解为特定于领域和领域不变的特征,从而在领域不变的潜在空间中将源域与目标域对齐。这是通过在产生的潜在空间中利用对抗域分类来实现的。具体地说,我们利用一个域标识符\(D I\),它将未纠缠的特征\(\left(f_{d i}\right.\)\(\left.f_{d s}\right)\)作为输入,并输出域标签\(l_f\)(源或目标)。域标识符的目标函数如下:

\[\mathcal{L}_{D I}=-\mathbb{E}\left[l_f \log P\left(l_f\right)\right]+\mathbb{E}\left(1-l_f\right)\left[\log P\left(1-l_f\right)\right], \]

然后训练解纠缠器欺骗域标识符\(D I\)提取域不变特征。

Mutual Information

为了更好地分离特征,我们最小化了领域不变特征和领域特定特征\(\left(f_{d i}, f_{d s}\right)\)之间的相互信息,以及领域不变特征和类无关特征\(\left(f_{d i}, f_{c i}\right)\):

\[I\left(\mathcal{D}_x ; \mathcal{D}_{f_{d i}}\right)=\int_{\mathbb{X} \times \mathcal{Z}} \log \frac{d \mathbb{P}_{X Z}}{d \mathbb{P}_X \otimes \mathbb{P}_Z} d \mathbb{P}_{X Z}, \]

其中\(x \in\left\{f_{d s}, f_{c i}\right\}, \mathbb{P}_{X Z}\)\(\left(\mathcal{D}_x, \mathcal{D}_{f_{d i}}\right)\)的联合概率分布,\(\mathbb{P}_X=\int_{\mathcal{Z}} d \mathbb{P}_{X Z}\)\(\mathbb{P}_Z=\)\(\int_{\mathcal{X}} d \mathbb{P}_{X Z}\)为边际。尽管互信息是跨不同领域的关键度量,但它仅适用于离散变量,或概率分布未知的有限问题族(Belghazi et al., 2018)。计算的复杂度为\(O\left(n^2\right)\),这对于深度cnn来说是不希望的。在本文中,我们采用互信息神经估计器(MINE) (Belghazi et al., 2018)。

\[\widehat{I(X ; Z)}_n=\sup _{\theta \in \Theta} \mathbb{E}_{\mathbb{P}_{X Z}^{(n)}}\left[T_\theta\right]-\log \left(\mathbb{E}_{\mathbb{P}_X^{(n)} \otimes \widehat{\mathbb{P}}_Z^{(n)}}\left[e^{T_\theta}\right]\right) . \]

它通过利用神经网络\(T_\theta\)\(n\) 个 I.I.D样本的互信息进行无偏估计。

实际上,MINE(6)可以计算为\(I(X ; Z)=\)\(\iint \mathbb{P}_{X Z}^n(x, z) T(x, z, \theta)-\log \left(\iint \mathbb{P}_X^n(x) \mathbb{P}_Z^n(z) e^{T(x, z, \theta)}\right)\)。此外,为了避免计算积分,我们利用蒙特卡罗积分:

\[I(X, Z)=\frac{1}{n} \sum_{i=1}^n T(x, z, \theta)-\log \left(\frac{1}{n} \sum_{i=1}^n e^{T\left(x, z^{\prime}, \theta\right)}\right) \]

其中\((x, z)\)是从联合分布中抽样,\(z^{\prime}\)是从边缘分布中抽样。我们实现了一个神经网络来执行公式7中定义的蒙特卡罗积分。

Ring-style Normalization

传统的batch normalization(Ioffe & Szegedy, 2015)通过减去批次均值并除以批次标准差来减少内部协变量转移。尽管在领域自适应上取得了很好的结果,但单独的batch normalization并不能保证在异构域的情况下嵌入特征得到很好的归一化。目标数据来自多个域,它们的嵌入特征在潜在空间中分散不规则。郑等人(2018)提出了一种环形规范约束,以维持多类别的角度分类边界之间的平衡。其目标函数如下:

\[\mathcal{L}_{\text {ring }}=\frac{1}{2 n} \sum_{i=1}^n\left(\left\|T\left(x_i\right)\right\|_2-R\right)^2 \]

其中 \(R\) 是学习到的范数值。然而,环形损失不够健壮,如果学习到的 \(R\) 很小,可能会导致模式崩溃。相反,我们将环形损失结合到 Geman-McClure 模型中,并最小化以下损失函数:

\[\mathcal{L}_{\text {ring }}^{G M}=\frac{\sum_{i=1}^n\left(\left\|T\left(x_i\right)\right\|_2-R\right)^2}{2 n \beta+\sum_{i=1}^n\left(\left\|T\left(x_i\right)\right\|_2-R\right)^2} \]

其中 \(\beta\) 是 Geman-McClure 模型的比例因子。

Optimization

我们的模型以端到端的方式进行训练。我们使用随机梯度下降(Stochastic Gradient Descent,Kiefer et al., 1952)或 Adam(Kingma & Ba, 2014)优化器迭代地训练类别和领域解缠组件、MINE 和重构组件。我们采用流行的神经网络(例如 LeNet、AlexNet 或 ResNet)作为我们的特征生成器 \(G\)。具体的训练过程见算法 1。

posted @ 2024-04-04 14:59  Un-Defined  阅读(75)  评论(0编辑  收藏  举报