变分自编码器 = 最小化先验分布 + 最大化互信息

这篇文章很简短,主要描述的是一个很有用、也不复杂、但是我居然这么久才发现的事实~

《深度学习的互信息:无监督提取特征》一文中,我们通过先验分布和最大化互信息两个loss的加权组合来得到Deep INFOMAX模型最后的loss。在那篇文章中,虽然把故事讲完了,但是某种意义上来说,那只是个拼凑的loss。而本文则要证明那个loss可以由变分自编码器自然地导出来。

过程 #

不厌其烦地重复一下,变分自编码器(VAE)需要优化的loss是
(1)KL(p~(x)p(z|x)q(z)q(x|z))=p~(x)p(z|x)logp~(x)p(z|x)q(x|z)q(z)dzdx
相关的论述在本博客已经出现多次了。VAE中既包含编码器,又包含解码器,如果我们只需要编码特征,那么再训练一个解码器就显得很累赘了。所以重点是怎么将解码器去掉。

其实再简单不过了,把VAE的loss分开两部分
(2)KL(p~(x)p(z|x)q(z)q(x|z))=p~(x)p(z|x)logp(z|x)q(z)dzdxp~(x)p(z|x)logq(x|z)p~(x)dzdx
第一项是先验分布的KL散度,第二项的logq(x|z)p~(x)其实不也就是x,z的点互信息吗?假如q(x|z)具有无限的拟合能力,最终必然也会有p~(x)p(z|x)=q(x|z)p(z)(贝叶斯公式),所以第二项也就是
(3)KL(q(x|z)p(z)p~(x)p(z))=KL(p~(x)p(z|x)p~(x)p(z))
就是x,z两个随机变量的互信息了,前面的负号意味着我们要最大化互信息。

剩下的处理过程就跟《深度学习的互信息:无监督提取特征》一样了,略。

结语 #

开头已经说了,这篇文章会很简短,没有什么内容。主要目的就是给出变分自编码器的loss的新理解(最小化先验分布 + 最大化互信息),然后就可以自然而言地导出Deep INFOMAX的loss。

如果我还没有写《深度学习的互信息:无监督提取特征》,那么我肯定会用这个出发点来讲解Deep INFOMAX,不过既然那篇文章都写了好几天了,所以只好另开这个简短的小文,来补充说明一下~

转载到请包括本文地址:https://spaces.ac.cn/archives/6088

更详细的转载事宜请参考:《科学空间FAQ》

如果您还有什么疑惑或建议,欢迎在下方评论区继续讨论。

如果您觉得本文还不错,欢迎分享/打赏本文。打赏并非要从中获得收益,而是希望知道科学空间获得了多少读者的真心关注。当然,如果你无视它,也不会影响你的阅读。再次表示欢迎和感谢!

posted @   jasonzhangxianrong  阅读(42)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
点击右上角即可分享
微信分享提示