【论文笔记】A theory of learning from different domains
防盗
https://www.cnblogs.com/setdong/p/17756127.html
domain adaptation 领域理论方向的重要论文. 这篇笔记主要是推导文章中的定理, 还有分析定理的直观解释. 笔记中的章节号与论文中的保持一致.
1. Introduction
domain adaptation 的设定介绍:
有两个域, source domain 与 target domain.
source domain: 一组从 source dist. 采样的带有标签的数据.
target domain: 一组从 target dist. 采样的无标签的数据, 或者有很少的数据带标签.
其中 source dist. target dist.
目标: 学习一个能在 target domain上表现得好的模型.
(第二节跳过)
3. A rigorous model of domain adaptation
首先关注二分类问题. 这节主要是给出了本文中用到的一些notations.
- 表示 source domain, 前者是 source dist, 后者是 source dist. 上的 ground truth function.
- 表示 target domain, 同上.
- 表示一个从输入空间映射到二分类集合的 hypothesis.
- 在分布 上, 两个 hypotheses 与 的平均差异定义为:
由于 与 的输出是 0 或 1, 所以只有它们输出不同时, 期望中间的部分为 1, 所以上式为两个hypotheses之间的平均差异(或 disagreements).
- source error of : , 也就是 在source domain 上的错误率 (generalization error).
- empirical source error of : , 也就是 在source domain 上的经验错误率 (empirical error).
- 相同的, 在 target domain 上的 notations: 和.
4. A bound relating the source and target error
现在, 想要分析一个在 source domain上训练的分类器在 target domain上的 generalization error (即 ) 是多少. 这个值肯定无法计算出来, 所以最直观的想法就是用 source error (即 ) 和 两个域之间的差异来 bound target error.
那么用什么来表示两个域之间的差异呢? 文章首先用 Divergence 表示这个差异, 并给出了用 Divergence 的 bound.
但是 Divergence 有很多缺点, 所以作者提出了第二种方法来表示域之间的差异 -- Divergence, 为了给出相应的 bound, 又将 Divergence 扩展成 Divergence.
a) Divergence
也叫 Variation Divergence, Variation Distance, TV Distance.
其中 是在 和 上所有可测子集的集合.
用两个很简单的一维分布来表示一下:
上面两个: 红色区域和蓝色区域的面积是相等的, 因为面积就是概率. 很明显, 对于这两种情况而言, 就等于2倍蓝色区域面积=2倍红色面积=蓝色面积+红色面积.
下面两个: 两个分布没有重合区域, 等于2倍的 的面积=2倍的 的面积=2. 这里很容易发现, 无论 与 相隔多远, 差异多大, 只要它们没有重合部分, 永远等于2.
从上图还能得出一个公式:
其中 表示 的 pdf.
Thm1. 对于任意一个 hypothesis ,
证明:
其中 , 而 在前面讲过. 这里再一次体现了前面提到的缺点, 只要不同, 无论 有多远 都等于1.
用 Divergence 来做 bound 有以下两个缺点: 1) 无法从有限的样本来估计; 2) bound 很松.
b) Divergence
Def. 1 给定在输入空间 上的两个概率分布 和 , 表示 上的hypothesis space, 为指示函数(即). 那么, 和 之间的 divergence 为:
可以理解为 将输入空间分类成 的那部分集合, i.e. . 所以 就是 在分布 和 上的概率之差, 其中注意 over all , 也就是选取令概率之差最大的那个假设 .
Divergence 的好处是: 1) 可以使用有限的样本来估计, 也就是 可以用 来近似. 文章给出了 Lemma 2 和 Lemma 1, 分别为 的计算公式和使用 VC dimension 作为复杂度计算 与 的 bound . 2) .
这里 empirical 版本的计算与估计并不重要, 使用不同的复杂度可以得到不同的 bound 方式, 所以跳过 Lemma 1,2.
c) Divergence
首先给出一个定义:
Def. 2: 为 ideal joint hypothesis, 它最小化了源域和目标域的联合误差(combined error). 用 表示相对应的combined error:
然后给出一个新的 hypothesis space:
Def.3 对于一个 hypothesis space , 它相对应的 空间为:
举个一维输入空间的简单例子: 考虑这样的一个 hypothesis class:
那么, 它相应的 空间就是:
这时, 将 Divergence 中的假设空间换成 空间, 就得出了 Divergence. 如果按照定义从头推算一遍就是:
其中第二行是因为, 即为 的那部分输入空间的集合, 由 Def.3 可知, 等价于 , 虽然不知道具体哪个 , 但只关心在假设空间中令概率差值最大的那两个.
这同时也十分直观的得到了 Lemma 3:
对任意两个 hypotheses ,
有了以上信息, 我们可以用给出 的上界:
Thm.2: 为 VC-dim = d 的假设空间, 为来自于 的, 大小为 的样本. 那么对于任意的 和任意的 , 以下不等式至少 的概率成立:
同样的, 先忽略 empircal 的那部分. 表示了两个域的分布之间的差异, 同时与 有关. 表示的是 在两个域上最小的联合错误率, 其实也蕴含了两个域分布之间的关系, 同时又与 有关. 所以 用 和 进行 bound 很合理.
证明十分简单, 主要就是用到 triangle inequality, 文章中也给出了完整的证明过程, 这里就不粘贴了.
5. A learning bound combining source and target training data
现在考虑这样的学习模式:
训练集为 , 其中 为 个从分布 中采样的实例, 为 个从分布 中独立采样的实例. 学习的目标是寻找一个 以最小化 . 这里考虑使用 ERM, 但 Domain adaptation 任务中 往往很小, 所以直接最小化 target error 不合适. 作者考虑在训练过程中, 最小化 source error 和 target error 的和:
其中 . 接下来, 文章给出了两个 定理, 分别为 与 之间的bound (Lemma 4) 和 与 之间的 bound (Lemma 5).
Lemma. 4:
对于任意一个 ,
证明同样依赖于 用到 triangle inequality:
而且如果把 Lemma 4 左边的 展开, 再左右两边消掉 , 此时 Lemma 4 与 Thm.2 其实是等价的.
Lemma 5: 对于一个 hypothesis , 如果训练样本是由 个从分布 采样的实例和 个从分布 采样的实例构成的, 且这些实例被 打上标签. 那么, 对于任何的 , 下式至少有 的概率成立:
证明依赖于 Hoeffding Inequality, 我在这篇博客中给了 2) Chernoff bound, Hoeffding's Lemma, Hoeffding's inequality 定理的介绍和推导.
证明:
按 的定义和 empirical error 的定义展开, 有:
这个形式就很容易观察了.
令 表示值为 的随机变量.
令 表示值为 的随机变量.
那么, 很容易计算出 , 且 , 所以直接应用 Hoeffding Inequality 就得到 Lemma 5 的不等式.
Thm.3: 为 VC-dim=d 的假设空间, 和 为从 和 采样得到的 个 unlabeled 的实例. 是从 采样得到的 个 labeled 的实例和 采样得到的 个 labeled 的实例的集合, 其中使用分别的 ground truth functions 进行 labeling. 如果 , 其中训练集为 , , 那么, 对于任何的 , 下式至少有 的概率成立:
证明文章附录中已给出, 多次应用 Lemma 4 和 5 便可推出结论.
8. Combining data from multiple sources
前几节的结论都是基于一个 source domain 和一个 target domain, 接下来将结论扩展到多个 source domain 的情景.
Several Domain adaptation 设定:
- 有 N 个 source domains: , 其中 .
- target domain: , 它也许是或也许不是 N 个 source domains 中的一员.
- 训练集: , 其中 为 个从分布 采样的有标签的实例, .
- 学习目标: 训练一个模型, 使其在 target domain 上表现得好.
还是考虑使用 ERM 作为学习算法, 所以需要定义 empirical error. 由于数据来自于多个域, 所以考虑最简单的方式 - 加权, 即对任意 hypothesis , 定义它的 empirical -weighted error:
True -weighted error:
其中, 权重为 且 .
为了推算出类似于 Thm.3 的结论, 文章又给出了 Lemma 6 和 Thm.4.
8.1 Uniform convergence
这个定理忽略了域之间的差距问题, 只考虑 与 的设定对 |empirical - true| 的影响, 文章中将 与 称为 的 quality 与 quantity.
Lemma.6: () 为 个从分布 采样的有标签的实例. 为任意的权重向量. 对于某些固定的 hypothesis 和任意的 , 下式至少有 的概率成立:
证明与 Lemma.5 的类似:
在每个域中定义不同的随机变量, 在 中: 令 表示值为 的随机变量.
然后很容易计算出 , 且 , 所以直接应用 Hoeffding Inequality 就得到 Lemma 6 的不等式.
8.2 A bound using pairwise divergence
Thm.4 与 Thm.5 考虑两个 hypotheses 的差别, 分别为用ERM 最小化 empirical -weighted error 得到的 hypothesis () 与在 target domain 上泛化最好的 hypothesis (). 它们在 target domain 上的错误率的差别可以通过域之间的差别(-divergence)来表示, 不过 -divergence 表示的是 true error 之间的差别, 所以应用上面的Lemma.6 ( true error 与 empirical error 的差别) 可以得到结论.
Thm.4 与 Thm.5 的区别是在用 -divergence 表示域之间的差别时, Thm.4 考虑的是每个 source dist. 与 target dist.之间的差别(不等式a), 而 Thm.5 考虑的是将多个源域分布合并成一个分布, 类似于高斯混合, 然后计算这个混合分布与 target dist. 之间的差别(不等式b).
Thm.4: 为 VC-dim=d 的假设空间, () 为 个从分布 采样的有标签的实例. 如果 , 其中训练集为 , , 那么, 对于任何的 , 下式至少有 的概率成立:
其中, 是域与目标域的 combined error.
首先令 表示域 与目标域的 ideal joint hypothesis, 所以 . 在绝对值内加一项再减一项, 然后将绝对值符号移到外面, 在利用 的定义与 Lemma.3就得到了图中的结论. 上面的不等式(记为不等式a)适用于所有的 , 所以同样适用于 :
第二行来自于 Lemma.6(|). 最后一行来自于 不等式a.
8.3 A bound using combined divergence
与 Thm.4的描述完全相同, 区别在 8.2 中已经介绍.
Thm.5 为 VC-dim=d 的假设空间, () 为 个从分布 采样的有标签的实例. 如果 , 其中训练集为 , , 那么, 对于任何的 , 下式至少有 的概率成立:
其中, 是 N 个 source dist.s 的混合分布, 混合的权重即 向量, 是 True -weighted error 与 target error 的和. 与不等式a 证明类似, 首先令, 那么 . 基于此, 文章给了与不等式a类似的bound, 这里将其称为不等式b:
与不等式a 同样的证明方式. 接下来的证明也完全相同, 利用 Lemma.6.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!