Huang J., Smola A., Gretton A., Borgwardt K. & Scholkopf B. Correcting Sample Selection Bias by Unlabeled Data. NIPS, 2007.
概
MMD量化了两组数据是否来自同一个分布的可能性, 那么如何利用这份信息来更好地训练, 增加模型的泛化性呢?
主要内容
我们有两组数据Z=((x1,y1),(x2,y2),…,(xm,ym))⊆X×Y, Z′=((x′1,y′1),(x′2,y′2),…,(x′n,y′n))⊆X×Y, 分别来自分布Pr(x,y)和Pr′(x,y).
一般来说, 我们训练一个模型(分类也好回归也罢), 可以归结为如下的风险函数
R(Pr,θ,ℓ(x,y,θ))=E(x,y)∼Pr[ℓ(x,y,θ)],
但是我们真正想要优化的是R(Pr′,θ,ℓ(x,y,θ)), 当然一般的做法是假设二者是一致的. 但实际情况可能是二者并不一致, 但是注意到
R[Pr′,θ,ℓ(x,y,θ)]=E(x,y)∈Pr′[ℓ(x,y,θ)]=E(x,y)∼Pr[Pr′(x,y)Pr(x,y)ℓ(x,y,θ)],
并记β(x,y):=Pr′(x,y)Pr(x,y)(若成立), 则
R[Pr′,θ,ℓ(x,y,θ)]=R[Pr,θ,β(x,y)ℓ(x,y,θ)].
这实际上可以理解为对样本的一个重加权, 所以现在的问题便是, 如何估计β(x,y), 本文研究一种特殊的情况:
Pr(x,y)=P(y|x)Pr(x),Pr′(x,y)=P(y|x)Pr′(x),
即 covariate shift, 此时
β(x,y)=Pr(x)Pr′(x).
首先, 根据MMD我们知道, 两个分布差异性可以量化为
MMD[F,p,q]:=supf∈F(Ep[f(x)]−Eq[f(y)]),
当我们限制F为 universal RKHS H的时候, 上式可表示为
MMD[H,p,q]=sup∥f∥H≤1Ep[f(x)]−Eq[f(x)]=sup∥f∥H≤1Ep[⟨ϕx,f⟩H]−Eq[⟨ϕx,f⟩H]=∥μp−μq∥H.
在此处, 我们关注(用ϕ(x)表示ϕx)
∥μ(Pr′)−Ex∼Pr(x)[β(x)ϕ(x)]∥,
即我们希望找到一个权重β(x)使得上式最小, 由于分布的一些特殊性质, 完整的问题表述如下:
minβ∥μ(Pr′)−Ex∼Pr(x)[β(x)ϕ(x)]∥s.t.β(x)≥0,Ex∼Pr(x)[β(x)]=1.
在实际问题中, 我们只有分布中的有限的采样, 也就是开头的Z,Z′, 上述问题变为
∥1mm∑i=1βiϕ(xi)−1nn∑i=1ϕ(x′i)∥2=1m2βTKβ−2mnκTβ+const,
其中κi:=∑nj=1k(xi,x′j). 于是, 我们优化如下的问题
minβ12βTKβ−mnκTβs.t.βi∈[0,B],|m∑i=1βi−m|≤mϵ.
限制条件的前者限制了差异的大小, 后者则是希望其迫近概率分布.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix