变分自编码器(八):估计样本概率密度

在本系列的前面几篇文章中,我们已经从多个角度来理解了VAE,一般来说,用VAE是为了得到一个生成模型,或者是做更好的编码模型,这都是VAE的常规用途。但除了这些常规应用外,还有一些“小众需求”,比如用来估计x的概率密度,这在做压缩的时候通常会用到。

本文就从估计概率密度的角度来了解和推导一下VAE模型。

两个问题 #

所谓估计概率密度,就是在已知样本x1,x2,,xNp~(x)的情况下,用一个待定的概率密度簇qθ(x)去拟合这批样本,拟合的目标一般是最小化负对数似然:
(1)Exp~(x)[logqθ(x)]=1Ni=1Nlogqθ(xi)
但这纯粹都只是理论形式,还有诸多问题没有解决,主要可以归为两个大问题:

1、用什么样的qθ(x)去拟合;

2、用什么方法去求解上述目标。

混合模型 #

第一个问题,我们自然是希望qθ(x)的拟合能力越强越好,最好它有能力拟合所有概率分布。然而很遗憾的是,神经网络虽然理论上有万能拟合能力,但那只是拟合函数的能力,并不是拟合概率分布的能力,概率分布需要满足qθ(x)0qθ(x)dx=1,后者通常难以保证。

直接的做法做不到,那么我们就往间接的角度想,构建混合模型:
(2)qθ(x)=qθ(x|z)q(z)dz=Ezq(z)[qθ(x|z)]
其中q(z)通常被选择为无参数的简单分布,比如标准正态分布;而qθ(x|z)则是带参数的、以z为条件的简单分布,比如均值、方差跟z相关的标准正态分布。

从生成模型的角度来看,上述模型被解释为先从q(z)中采样z,然后传入qθ(x|z)中生成x的两步操作。但本文的焦点是估计概率密度,我们之所以选择这样的qθ(x|z),是因为它有足够的拟合复杂分布的能力,最后的qθ(x)表示为了多个简单分布qθ(x|z)的平均,了解高斯混合模型的读者应该知道,这样的模型能够起到非常强的拟合能力,甚至理论上能拟合任意分布,所以分布的拟合能力有保证了。

重要采样 #

但式(2)是无法简单积分出来的,或者说只有这种无法简单显式地表达出来的分布,才具有足够强的拟合能力,所以我们要估计它的话,都要按照Ezq(z)[qθ(x|z)]的方式进行采样估计。然而,实际的场景下,zx的维度比较高,而高维空间是有“维度灾难”的,这意思是说在高维空间中,我们哪怕采样百万、千万个样本,都很难充分地覆盖高维空间,也就是说很难准确地估计Ezq(z)[qθ(x|z)]

为此,我们要想办法缩小一下采样空间。首先,我们通常会将qθ(x|z)的方差控制得比较小,这样一来,对于给定x,能够使得qθ(x|z)比较大的z就不会太多,大多数z算出来的qθ(x|z)都非常接近于零。于是我们只需要想办法采样出使得qθ(x|z)比较大的z,就可以对Ezq(z)[qθ(x|z)]进行一个比较好的估计了。

具体来说,我们引入一个新的分布pθ(z|x),假设使得qθ(x|z)比较大的z服从该分布,于是我们有
(3)qθ(x)=qθ(x|z)q(z)dz=qθ(x|z)q(z)pθ(z|x)pθ(z|x)dz=Ezpθ(z|x)[qθ(x|z)q(z)pθ(z|x)]
这样一来我们将从q(z)“漫无目的”的采样,转化为从pθ(z|x)的更有针对性的采样。由于qθ(x|z)的方差控制得比较小,所以pθ(z|x)的方差自然也不会大,采样效率是变高了。注意在生成模型视角下,pθ(z|x)被视为后验分布的近似,但是从估计概率密度的视角下,它其实就是一个纯粹的重要性加权函数罢了,不需要特别诠释它的含义。

训练目标 #

至此,我们解决了第一个问题:用什么分布,以及怎么去更好地计算这个分布。剩下的问题就是如何训练了。

其实有了重要性采样的概念后,我们就不用考虑什么ELBO之类的了,直接使用目标(1)就好,代入qθ(x)的表达式得到
(4)Exp~(x)[logEzpθ(z|x)[qθ(x|z)q(z)pθ(z|x)]]
事实上,如果Ezpθ(z|x)这一步我们通过重参数只采样一个z,那么训练目标就变成
(5)Exp~(x)[logqθ(x|z)q(z)pθ(z|x)],zpθ(z|x)
这其实已经就是常规VAE的训练目标了。如果采样M>1个,那么就是
(6)Exp~(x)[log(1Mi=1Mqθ(x|zi)q(zi)pθ(zi|x))],z1,z2,,zMpθ(z|x)
这就是“重要性加权自编码器”了,出自《Importance Weighted Autoencoders》,它被视为VAE的加强。总的来说,通过重要性采样的角度,我们可以绕过传统VAE的ELBO等繁琐推导,也可以不用《变分自编码器(二):从贝叶斯观点出发》所介绍的联合分布视角,直接得到VAE模型甚至其改进版。

文章小结 #

本文从估计样本的概率密度这一出发点介绍了变分自编码器VAE,结合重要性采样,我们可以得到VAE的一个快速推导,完全避开ELBO等诸多繁琐细节。

转载到请包括本文地址:https://spaces.ac.cn/archives/8791

更详细的转载事宜请参考:《科学空间FAQ》

posted @   jasonzhangxianrong  阅读(83)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
点击右上角即可分享
微信分享提示