MMD讲解
描述一个随机变量
去描述一个随机变量,最直接的方法就是给出它的概率分布函数
f ( x ) f ( x ) 。一些简单的分布可以这么干,比如正态分布给出均值和方差就可以确定,但是对于一些复杂的、高维的随机变量,我们无法给出它们的分布函数。
这时候我们可以用随机变量的矩
来描述一个随机变量,比如一阶中心矩是均值,二阶中心矩是方差等等。如果两个分布的均值和方差都相同的话,它们应该很相似,比如同样均值和方差的高斯分布和拉普拉斯分布。但是很明显,均值和方差并不能完全代表一个分布,这时候我们就需要更高阶的矩来描述一个分布。
举个例子,就好比描述人一样,如果两个人身高、轮廓都一样,我们会说这两个人很像。但是如果要说这两个人是一个人的话,我们如要更多的信息,比如血型、DNA等更加复杂的信息
而MMD的基本思想就是,如果两个随机变量的任意阶都相同的话,那么两个分布就是一致的。而当两个分布不相同的话,那么使得两个分布之间差距最大的那个矩应该被用来作为度量两个分布的标准。
衡量两个随机变量的差异
MMD常被用来度量两个分布之间的距离,是迁移学习中常用的损失函数。定义如下,x x 的分布为p p ,y y 的分布为q q ,
M M D [ F , p , q ] = sup ∥ f ∥ H ⩽ 1 ( E p [ f ( x ) ] − E q [ f ( y ) ] ) (1) (1) M M D [ F , p , q ] = sup ‖ f ‖ H ⩽ 1 ( E p [ f ( x ) ] − E q [ f ( y ) ] )
其中sup表示求上界,E p E p 表示求期望,f ( ⋅ ) f ( · ) 表示求映射函数,sup下面表示的式子在再生希尔伯特空间中的范数应该小于等于1。
式子中的f f 就相当于将x映射到高阶上去,比如x n x n ,那么对应的期望值就相当于在求n阶矩,然后将他们的上确界(最大值)作为MMD的值。
如何表示一个随机变量的任意阶矩
两个分布应该是由高阶矩来描述的,那么如何获得一个随机变量的高阶矩呢?核函数
。高斯核函数,它对应的映射函数恰好可以映射到无穷维 上,映射到无穷维上再求期望,正好可以得到随机变量的高阶矩,这个方法有一个更高大上的名字,叫做kernel embedding of distributions
,这个简单理解就是将一个分布映射到再生希尔伯特空间(每个核函数都对应一个RKHS)上的一个点,这样两个分布之间的距离就可以用两个点的内积进行表示
!
M M D [ F , p , q ] = sup ∥ f ∥ H ⩽ 1 ( E p [ f ( x ) ] − E q [ f ( y ) ] ) (2) (2) M M D [ F , p , q ] = sup ‖ f ‖ H ⩽ 1 ( E p [ f ( x ) ] − E q [ f ( y ) ] )
其中E p [ f ( x ) ] = ∫ X p ( d x ) f ( x ) = ∫ X p ( d x ) ⟨ k ( x , ⋅ ) , f ⟩ H k = ⟨ ∫ X p ( d x ) k ( x , ⋅ ) , f ⟩ H k = ⟨ μ p , f ⟩ H k E p [ f ( x ) ] = ∫ X p ( d x ) f ( x ) = ∫ X p ( d x ) ⟨ k ( x , · ) , f ⟩ H k = ⟨ ∫ X p ( d x ) k ( x , · ) , f ⟩ H k = ⟨ μ p , f ⟩ H k
∥ f ∥ H ⩽ 1 ‖ f ‖ H ⩽ 1 目的也是为了上界避免随意取到无穷大
。
第一个等号就是利用期望展开;第二个等号利用的是RKHS的再生性,其实就是RKHS中的f ( x ) f ( x ) 都可以写成一个无穷维的向量 k ( x , ⋅ ) k ( x , · ) 与基底向量f f 的内积 ;第三个等号利用的是内积的性质;最后一个等号μ p μ p 表示的就是kernel mean embedding
。意义就是将x x 利用k ( x , ⋅ ) k ( x , · ) 映射到无穷维上,然后在每一个维度上都求期望。
这样一来MMD的公式就变为
M M D [ F , p , q ] = sup ∥ f ∥ H ⩽ 1 ( ⟨ μ p − μ q , f ⟩ H ) (3) (3) M M D [ F , p , q ] = sup ‖ f ‖ H ⩽ 1 ( ⟨ μ p − μ q , f ⟩ H )
根据内积的性质⟨ a , b ⟩ ⩽ ∥ a ∥ ∥ b ∥ ⟨ a , b ⟩ ⩽ ‖ a ‖ ‖ b ‖ ,MMD公式可以写为
M M D ( p , q , H ) = ∥ μ p − μ q ∥ H (4) (4) M M D ( p , q , H ) = ‖ μ p − μ q ‖ H
但是μ p μ p 无法直接计算,可以使用均值代替,因为均值是期望的无偏估计。
假设X ∼ p , Y ∼ q X ∼ p , Y ∼ q ,而且X X 有n个样本,Y Y 有m个样本,则
M M D [ F , X , Y ] = ∥ 1 n n ∑ i = 1 f ( x i ) − 1 m m ∑ j = 1 f ( y i ) ∥ H (5) (5) M M D [ F , X , Y ] = ‖ 1 n ∑ i = 1 n f ( x i ) − 1 m ∑ j = 1 m f ( y i ) ‖ H
到这里我们还算是没有办法求,因为f ( x i ) f ( x i ) 是无穷维的。但是核技巧的关键就在于不需要显式地表示映射函数f ( x ) f ( x ) 来求两个向量的内积。因此我们对MMD进行平方,化简得到内积并用核函数表达
。
ˆ MMD ( P , Q ) 2 = ∥ ∥
∥ ∥ 1 m ∑ x i ϕ ( x i ) − 1 n ∑ y i ϕ ( y i ) ∥ ∥
∥ ∥ 2 2 (6) (6) MMD ^ ( P , Q ) 2 = ‖ 1 m ∑ x i ϕ ( x i ) − 1 n ∑ y i ϕ ( y i ) ‖ 2 2
= ∥ 1 m ∑ x i ϕ ( x i ) ∥ 2 + ∥ 1 n ∑ y i ϕ ( y i ) ∥ 2 − 2 ∥ 1 m ∑ x i ϕ ( x i ) 1 n ∑ y i ϕ ( y i ) ∥ (7) (7) = ‖ 1 m ∑ x i ϕ ( x i ) ‖ 2 + ‖ 1 n ∑ y i ϕ ( y i ) ‖ 2 − 2 ‖ 1 m ∑ x i ϕ ( x i ) 1 n ∑ y i ϕ ( y i ) ‖
而
∥ 1 m ∑ x i ϕ ( x i ) ∥ 2 = 1 m 2 ( ϕ ( x 1 ) + ϕ ( x 2 ) + ⋯ + ϕ ( x m ) ) T ( ϕ ( x 1 ) + ϕ ( x 2 ) + ⋯ + ϕ ( x m ) ) (8) (8) ‖ 1 m ∑ x i ϕ ( x i ) ‖ 2 = 1 m 2 ( ϕ ( x 1 ) + ϕ ( x 2 ) + ⋯ + ϕ ( x m ) ) T ( ϕ ( x 1 ) + ϕ ( x 2 ) + ⋯ + ϕ ( x m ) )
= 1 m 2 { ϕ ( x 1 ) T ϕ ( x 1 ) + ⋯ + ϕ ( x 1 ) T ϕ ( x m ) (9) (9) = 1 m 2 { ϕ ( x 1 ) T ϕ ( x 1 ) + ⋯ + ϕ ( x 1 ) T ϕ ( x m )
+ ϕ ( x 2 ) T ϕ ( x 1 ) + ⋯ + ϕ ( x 2 ) T ϕ ( x m ) (10) (10) + ϕ ( x 2 ) T ϕ ( x 1 ) + ⋯ + ϕ ( x 2 ) T ϕ ( x m )
⋯ + ϕ ( x m ) T ϕ ( x 1 ) + ⋯ + ϕ ( x m ) T ϕ ( x m ) } (11) (11) ⋯ + ϕ ( x m ) T ϕ ( x 1 ) + ⋯ + ϕ ( x m ) T ϕ ( x m ) }
= 1 m 2 { k ( x 1 , x 1 ) + k ( x 1 , x 2 ) + ⋯ + k ( x 1 , x m ) + k ( x 2 , x 1 ) + ⋯ + k ( x 2 , x m ) + ⋯ } (12) (12) = 1 m 2 { k ( x 1 , x 1 ) + k ( x 1 , x 2 ) + ⋯ + k ( x 1 , x m ) + k ( x 2 , x 1 ) + ⋯ + k ( x 2 , x m ) + ⋯ }
= 1 m 2 ∑ i , j k ( x i , x j ) (13) (13) = 1 m 2 ∑ i , j k ( x i , x j )
同理
∥ 1 n ∑ y i ϕ ( y i ) ∥ 2 = 1 n 2 ∑ i , j k ( y i , y j ) (14) (14) ‖ 1 n ∑ y i ϕ ( y i ) ‖ 2 = 1 n 2 ∑ i , j k ( y i , y j )
∥ 1 m ∑ x i ϕ ( x i ) 1 n ∑ y i ϕ ( y i ) ∥ = 1 m n ∑ i , j k ( x i , y j ) (15) (15) ‖ 1 m ∑ x i ϕ ( x i ) 1 n ∑ y i ϕ ( y i ) ‖ = 1 m n ∑ i , j k ( x i , y j )
所以有
ˆ MMD 2 = 1 m 2 ∑ i , j k ( x i , x j ) + 1 n 2 ∑ i , j k ( y i , y j ) − 2 m n ∑ i , j k ( x i , y j ) (16) (16) MMD ^ 2 = 1 m 2 ∑ i , j k ( x i , x j ) + 1 n 2 ∑ i , j k ( y i , y j ) − 2 m n ∑ i , j k ( x i , y j )
转载/参考:https://zhuanlan.zhihu.com/p/163839117
https://www.cnblogs.com/zhangcn/p/13710192.html
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 用 C# 插值字符串处理器写一个 sscanf
· Java 中堆内存和栈内存上的数据分布和特点
· 开发中对象命名的一点思考
· .NET Core内存结构体系(Windows环境)底层原理浅谈
· C# 深度学习:对抗生成网络(GAN)训练头像生成模型
· 趁着过年的时候手搓了一个低代码框架
· 本地部署DeepSeek后,没有好看的交互界面怎么行!
· 为什么说在企业级应用开发中,后端往往是效率杀手?
· 用 C# 插值字符串处理器写一个 sscanf
· 乌龟冬眠箱湿度监控系统和AI辅助建议功能的实现
2020-04-08 PAT (Advanced Level) Practice 1105 Spiral Matrix (25分)
2020-04-08 PAT (Advanced Level) Practice 1104 Sum of Number Segments (20分)
2020-04-08 PAT (Advanced Level) Practice 1111 Online Map (30分) (两次迪杰斯特拉混合)