【论文笔记】A theory of learning from different domains

防盗 https://www.cnblogs.com/setdong/p/17756127.html
domain adaptation 领域理论方向的重要论文. 这篇笔记主要是推导文章中的定理, 还有分析定理的直观解释. 笔记中的章节号与论文中的保持一致.

1. Introduction

domain adaptation 的设定介绍:
有两个域, source domain 与 target domain.
source domain: 一组从 source dist. 采样的带有标签的数据.
target domain: 一组从 target dist. 采样的无标签的数据, 或者有很少的数据带标签.
其中 source dist. target dist.
目标: 学习一个能在 target domain上表现得好的模型.
(第二节跳过)

3. A rigorous model of domain adaptation

首先关注二分类问题. 这节主要是给出了本文中用到的一些notations.

  • <DS,fS> 表示 source domain, 前者是 source dist, 后者是 source dist. 上的 ground truth function.
  • <DT,fT> 表示 target domain, 同上.
  • h:X{0,1} 表示一个从输入空间映射到二分类集合的 hypothesis.
  • 在分布 DS 上, 两个 hypotheses hf 的平均差异定义为:

ϵS(h,f)=ExDS[|h(x)f(x)|]

由于 hf 的输出是 0 或 1, 所以只有它们输出不同时, 期望中间的部分为 1, 所以上式为两个hypotheses之间的平均差异(或 disagreements).

  • source error of h: ϵS(h)=ϵS(h,fS), 也就是 h 在source domain 上的错误率 (generalization error).
  • empirical source error of h: ϵ^S(h), 也就是 h 在source domain 上的经验错误率 (empirical error).
  • 相同的, 在 target domain 上的 notations: ϵT(h,f),ϵT(h),ϵ^T(h).

4. A bound relating the source and target error

现在, 想要分析一个在 source domain上训练的分类器在 target domain上的 generalization error (即 ϵT(h)) 是多少. 这个值肯定无法计算出来, 所以最直观的想法就是用 source error (即 ϵS(h)) 和 两个域之间的差异来 bound target error.
那么用什么来表示两个域之间的差异呢? 文章首先用 L1 Divergence 表示这个差异, 并给出了用L1 Divergence 的 bound.
但是 L1 Divergence 有很多缺点, 所以作者提出了第二种方法来表示域之间的差异 -- H Divergence, 为了给出相应的 bound, 又将 H Divergence 扩展成 HΔH Divergence.

a) L1 Divergence

也叫 Variation Divergence, Variation Distance, TV Distance.

d1(D,D)=2supBB|PrD[B]PrD[B]|

其中 B 是在 DD 上所有可测子集的集合.
用两个很简单的一维分布来表示一下:

上面两个: 红色区域和蓝色区域的面积是相等的, 因为面积就是概率. 很明显, 对于这两种情况而言, d1(D,D) 就等于2倍蓝色区域面积=2倍红色面积=蓝色面积+红色面积.
下面两个: 两个分布没有重合区域, d1(D,D) 等于2倍的 D 的面积=2倍的 D 的面积=2. 这里很容易发现, 无论 DD 相隔多远, 差异多大, 只要它们没有重合部分, d1(D,D) 永远等于2.
从上图还能得出一个公式:

d1(D,D)=||DD||1=|D(x)D(x)|dx

其中 D(x) 表示 D 的 pdf.

Thm1. 对于任意一个 hypothesis h,

ϵT(h)ϵS(h)+d1(DS,DT)+min{EDS[|fS(x)fT(x)|],EDT[|fS(x)fT(x)|]}

证明:

|ϕS(x)ϕT(x)||h(x)fT(x)|dx|ϕS(x)ϕT(x)|dx=d1(DS,DT)

其中 |h(x)fT(x)|1, 而 |ϕS(x)ϕT(x)|dx=d1(DS,DT) 在前面讲过. 这里再一次体现了前面提到的缺点, 只要不同, 无论h,fT 有多远 |h(x)fT(x)|都等于1.
L1 Divergence 来做 bound 有以下两个缺点: 1) 无法从有限的样本来估计; 2) bound 很松.

b) H Divergence

Def. 1 给定在输入空间 X 上的两个概率分布 DD, H 表示 X上的hypothesis space, I(h) 为指示函数(即xI(h)h(x)=1). 那么, DD 之间的 H divergence 为:

dH(D,D)=2suphH|PrD[I(h)]PrD[I(h)]|

I(h) 可以理解为 h 将输入空间分类成 1 的那部分集合, i.e. I(h)={x|h(x)=1}. 所以 dH 就是 I(h) 在分布 DD 上的概率之差, 其中注意 sup over all hH, 也就是选取令概率之差最大的那个假设 h.
H Divergence 的好处是: 1) 可以使用有限的样本来估计, 也就是 dH 可以用 d^H 来近似. 文章给出了 Lemma 2 和 Lemma 1, 分别为 d^H 的计算公式和使用 VC dimension 作为复杂度计算 dHd^H 的 bound . 2) dHd1.
这里 empirical 版本的计算与估计并不重要, 使用不同的复杂度可以得到不同的 bound 方式, 所以跳过 Lemma 1,2.

c) HΔH Divergence

首先给出一个定义:
Def. 2: h 为 ideal joint hypothesis, 它最小化了源域和目标域的联合误差(combined error). 用 λ 表示相对应的combined error:

h=argminhH{ϵS(h)+ϵT(h)}λ=ϵS(h)+ϵT(h)

然后给出一个新的 hypothesis space: HΔH
Def.3 对于一个 hypothesis space H, 它相对应的 HΔH 空间为:

gHΔHg(x)=h(x)h(x) for some h,hH

举个一维输入空间的简单例子: 考虑这样的一个 hypothesis class:

H:={hα:αR}.hα(x)={1,xα0,x<α

那么, 它相应的 HΔH 空间就是:

HΔH={gα1,α2:α1,α2R}.gα1,α2={1,x(α1,α2)0,o.w.

这时, 将 H Divergence 中的假设空间换成 HΔH 空间, 就得出了 HΔH Divergence. 如果按照定义从头推算一遍就是:

dHΔH(DS,DT)=2supgHΔH|PrDS[I(g)]PrDT[I(g)]|=2suph,hH|PrxDS[h(x)h(x)]PrxDT[h(x)h(x)]|=2suph,hH|ϵS(h,h)ϵT(h,h)|

其中第二行是因为, I(g) 即为 g(x)=1 的那部分输入空间的集合, 由 Def.3 可知, g(x)=1 等价于 h(x)h(x), 虽然不知道具体哪个 h,h, 但只关心在假设空间中令概率差值最大的那两个.

这同时也十分直观的得到了 Lemma 3:
对任意两个 hypotheses h,h,

|ϵS(h,h)ϵT(h,h)|12dHΔH(DS,DT)

有了以上信息, 我们可以用dHΔH给出 ϵT 的上界:
Thm.2: H 为 VC-dim = d 的假设空间, US,UT 为来自于 DS,DT 的, 大小为 m 的样本. 那么对于任意的 δ(0,1) 和任意的 hH , 以下不等式至少 1δ 的概率成立:

ϵT(h)ϵS(h)+12dHΔH(DS,DT)+λ

同样的, 先忽略 empircal 的那部分. dHΔH(DS,DT) 表示了两个域的分布之间的差异, 同时与 H 有关. λ 表示的是 H 在两个域上最小的联合错误率, 其实也蕴含了两个域分布之间的关系, 同时又与 H 有关. 所以 ϵT(h)ϵS(h)dHΔH(DS,DT)λ 进行 bound 很合理.
证明十分简单, 主要就是用到 triangle inequality, 文章中也给出了完整的证明过程, 这里就不粘贴了.

5. A learning bound combining source and target training data

现在考虑这样的学习模式:
训练集为 S=(ST,SS), 其中 STβm 个从分布 DT 中采样的实例, SS(1β)m 个从分布 DS 中独立采样的实例. 学习的目标是寻找一个 h 以最小化 ϵT(h). 这里考虑使用 ERM, 但 Domain adaptation 任务中 β 往往很小, 所以直接最小化 target error 不合适. 作者考虑在训练过程中, 最小化 source error 和 target error 的和:

ϵ^α(h)=αϵ^T(h)+(1α)ϵ^S(h)

其中 α[0,1]. 接下来, 文章给出了两个 定理, 分别为 ϵT(h)ϵα(h) 之间的bound (Lemma 4) 和 ϵα(h)ϵ^α(h) 之间的 bound (Lemma 5).

Lemma. 4:
对于任意一个 hH,

|ϵα(h)ϵT(h)|(1α)(12dHΔH(DS,DT)+λ)

证明同样依赖于 用到 triangle inequality:

而且如果把 Lemma 4 左边的 ϵα 展开, 再左右两边消掉 (1α), 此时 Lemma 4 与 Thm.2 其实是等价的.

Lemma 5: 对于一个 hypothesis h, 如果训练样本是由 βm 个从分布 DT 采样的实例和 (1β)m 个从分布 DS 采样的实例构成的, 且这些实例被 fS,fT 打上标签. 那么, 对于任何的 δ(0,1), 下式至少有 1δ 的概率成立:

Pr[|ϵ^α(h)ϵα(h)|ϵ]exp[2mϵ2α2β+(1α)21β]

证明依赖于 Hoeffding Inequality, 我在这篇博客中给了 2) Chernoff bound, Hoeffding's Lemma, Hoeffding's inequality 定理的介绍和推导.
证明:
ϵ^α 的定义和 empirical error 的定义展开, 有:

这个形式就很容易观察了.
X1,...,Xβm 表示值为 αβ|h(x)fT(x)| 的随机变量.
Xβm+1,...,Xm 表示值为 1α1β|h(x)fS(x)| 的随机变量.
那么, 很容易计算出 ϵ^α(h)=1mi=1mXi , 且 E[ϵ^α(h)]=ϵα(h), 所以直接应用 Hoeffding Inequality 就得到 Lemma 5 的不等式.

Thm.3: H 为 VC-dim=d 的假设空间, USUT 为从 DSDT 采样得到的 m 个 unlabeled 的实例. S 是从 DS 采样得到的 (1β)m 个 labeled 的实例和 DT 采样得到的 βm 个 labeled 的实例的集合, 其中使用分别的 ground truth functions fS,fT 进行 labeling. 如果 h^=argminhHϵ^α, 其中训练集为 S, hT=argminhHϵT, 那么, 对于任何的 δ(0,1), 下式至少有 1δ 的概率成立:

ϵT(h^)ϵT(hT)+4α2β+(1α)21β2dlog(2(m+1))+2log8δm+2(1α)(12d^HΔH(US,UT)+42dlog(2m)+2log8δm+λ)

证明文章附录中已给出, 多次应用 Lemma 4 和 5 便可推出结论.

8. Combining data from multiple sources

前几节的结论都是基于一个 source domain 和一个 target domain, 接下来将结论扩展到多个 source domain 的情景.
Several Domain adaptation 设定:

  • 有 N 个 source domains: <Dj,fj>, 其中 j=1,...,N.
  • target domain: <DT,fT>, 它也许是或也许不是 N 个 source domains 中的一员.
  • 训练集: S=(S1,...,SN), 其中 Sjmj=βjm 个从分布 Dj 采样的有标签的实例, βj=1.
  • 学习目标: 训练一个模型, 使其在 target domain 上表现得好.

还是考虑使用 ERM 作为学习算法, 所以需要定义 empirical error. 由于数据来自于多个域, 所以考虑最简单的方式 - 加权, 即对任意 hypothesis h, 定义它的 empirical α-weighted error:

ϵ^α(h)=j=1Nαjϵ^j(h)=j=1NαjmjxSj|h(x)fj(x)|

True α-weighted error:

ϵα(h)=j=1Nαjϵj(h)

其中, 权重为 α=(α1,...,αN)αj=1.
为了推算出类似于 Thm.3 的结论, 文章又给出了 Lemma 6 和 Thm.4.

8.1 Uniform convergence

这个定理忽略了域之间的差距问题, 只考虑 αβ 的设定对 |empirical - true| 的影响, 文章中将 αjβj 称为 Sj 的 quality 与 quantity.
Lemma.6: Sj (j=1,...,N) 为 mj=βjm 个从分布 Dj 采样的有标签的实例. α为任意的权重向量. 对于某些固定的 hypothesis h 和任意的 δ(0,1), 下式至少有 1δ 的概率成立:

Pr[|ϵ^α(h)ϵα(h)|ϵ]2exp(2mϵ2j=1Nαj2βj)

证明与 Lemma.5 的类似:
在每个域中定义不同的随机变量, 在 Sj 中: 令 Xj,1,...,Xj,βjm 表示值为 αjβj|h(x)fj(x)| 的随机变量.
然后很容易计算出 ϵ^α(h)=1mj=1mβjmi=1Xj,i , 且 E[ϵ^α(h)]=ϵα(h), 所以直接应用 Hoeffding Inequality 就得到 Lemma 6 的不等式.

8.2 A bound using pairwise divergence

Thm.4 与 Thm.5 考虑两个 hypotheses 的差别, 分别为用ERM 最小化 empirical α-weighted error 得到的 hypothesis (hT) 与在 target domain 上泛化最好的 hypothesis (h^). 它们在 target domain 上的错误率的差别可以通过域之间的差别(HΔH-divergence)来表示, 不过 HΔH-divergence 表示的是 true error 之间的差别, 所以应用上面的Lemma.6 ( true error 与 empirical error 的差别) 可以得到结论.

Thm.4 与 Thm.5 的区别是在用 HΔH-divergence 表示域之间的差别时, Thm.4 考虑的是每个 source dist. 与 target dist.之间的差别(不等式a), 而 Thm.5 考虑的是将多个源域分布合并成一个分布, 类似于高斯混合, 然后计算这个混合分布与 target dist. 之间的差别(不等式b).
Thm.4: H 为 VC-dim=d 的假设空间, Sj (j=1,...,N) 为 mj=βjm 个从分布 Dj 采样的有标签的实例. 如果 h^=argminhHϵ^α(h), 其中训练集为 S={Sj}j=1N, hT=argminhHϵT(h), 那么, 对于任何的 δ(0,1), 下式至少有 1δ 的概率成立:

ϵT(h^)ϵT(hT)+2(j=1Nαj2βj)(dlog(2m)log(δ)2m)+j=1Nαj(2λj+dHΔH(Dj,DT))

其中, λj=minhH{ϵT(h)+ϵj(h)} 是域j与目标域的 combined error.

首先令 hj 表示域 j 与目标域的 ideal joint hypothesis, 所以 λj=ϵT(hj)+ϵj(hj). 在绝对值内加一项再减一项, 然后将绝对值符号移到外面, 在利用h 的定义与 Lemma.3就得到了图中的结论. 上面的不等式(记为不等式a)适用于所有的 hH, 所以同样适用于 h^H:

第二行来自于 Lemma.6(|ϵα(h)ϵ^α(h)|). 最后一行来自于ϵTϵα(h) 不等式a.

8.3 A bound using combined divergence

与 Thm.4的描述完全相同, 区别在 8.2 中已经介绍.
Thm.5 H 为 VC-dim=d 的假设空间, Sj (j=1,...,N) 为 mj=βjm 个从分布 Dj 采样的有标签的实例. 如果 h^=argminhHϵ^α(h), 其中训练集为 S={Sj}j=1N, hT=argminhHϵT(h), 那么, 对于任何的 δ(0,1), 下式至少有 1δ 的概率成立:

ϵT(h^)ϵT(hT)+2(j=1Nαj2βj)(2dlog(2(m+1))log(4δ)m)+(2γα+dHΔH(Dα,DT))

其中, Dα 是 N 个 source dist.s 的混合分布, 混合的权重即 α 向量, γα=minhH{ϵT(h)+ϵα(h)} 是 True α-weighted error 与 target error 的和. 与不等式a 证明类似, 首先令h=argminhH{ϵT(h)+ϵα(h)}, 那么 γα=ϵT(h)+ϵα(h). 基于此, 文章给了与不等式a类似的bound, 这里将其称为不等式b:

与不等式a 同样的证明方式. 接下来的证明也完全相同, 利用 Lemma.6.

posted @   李斯赛特  阅读(444)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 单线程的Redis速度为什么快?
· SQL Server 2025 AI相关能力初探
· AI编程工具终极对决:字节Trae VS Cursor,谁才是开发者新宠?
· 展开说说关于C#中ORM框架的用法!
点击右上角即可分享
微信分享提示