变分推断

变分推断的基本形式

变分推断是使q(z)逼近p(z|x)来求得隐变量z的后验分布p(z|x)。根据贝叶斯公式,有

log(p(x))evidence=log(p(x,z))log(p(z|x))=zq(z)log(p(x,z)q(z))evidence low boundzq(z)log(p(z|x)q(z))KL divergence

log(p(x))被称为Evidence的原因是因为它是来自我们观察到的,又因为KL-divergence不为负,为了使得q(z)逼近p(z|x),优化的目标就是上面的ELOB

Mean field

中场理论(Mean field)一般假设

(1)q(z)=i=1Mq(zi)

代入 1得到

zi=1Mq(zi)log(p(x,z))dzz1q(zi)z2q(z2)zMq(zM)i=1Mlog(q(zi))dzMdz1

zi=1Mq(zi)log(p(x,z))dzi=1Mz1q(z1)log(q(z1))

log(p~j(x,z))=Eij[log(p(x,zj))]

针对第zjELOW

zjq(zj)log(p~j(x,))zjq(zj)log(q(zj))

因此当q(zj)=q~j(x,z)时上式取得最小值0。因此通过迭代zj可以求得逼近p(z|x)q(z)

指数函数变分推断例子

假设p(x),p(x|z)都来自某指数族分布,指数族分布形式如下

p(x|η)=h(x)exp(ηTT(x)A(η))

且满足

A(ηMLE)=1ni=1nT(xi)A(η)=Ep(x|η)[T(x)]A(η)=Var[T(x)]

假设隐变量z可以分为两部分Zβ,那么ELOB可以写为

Z,βq(Z,β)log(p(x,Z,β))Z,βq(Z,β)log(q(Z,β))

根据指数族的性质后验分布p(β|Z,x)p(Z|β,z)都属于指数族

p(β|Z,x)=h(β)exp(T(β)Tη(Z,x)A(η(Z,x)))p(Z|β,x)=h(Z)exp(T(Z)Tη(β,x)A(η(β,x)))

这里只展示p(β|Z,x)的近似分布q(β|λ)求解,对于p(Z|β,x)的近似分布q(Z|ϕ)也类似

q(β|λ)=h(λ)exp(T(β)TλA(λ))

根据上一节的结果,ELOB是关于λ,ϕ的函数

Eq(Z,β)[log(p(β|Z,x))log(p(Z|x))log(p(x))]Eq(Z,β)[log(q(Z))log(q(β))]

固定ϕ,上式中与λ有关的项为

Eq(Z,β)[log(q(β|Z,x))]Eq(Z,β)[log(q(β))]

log(q(β|Z,x))log(q(β))定义带入,得到与λ有关的项为

Eq(β)[T(β)]TEq(Z)[η(Z,x)]λTEq(β)[T(β)]+A(λ)

利用A(η)=Ep(x|η)[T(x)]得到

L(λ,ϕ)=A(λ)TEq(Z)[η(Z,x)]λTA(λ)+A(λ)L(λ,ϕ)λ=A(λ)TEq(Z)[η(Z,x)]A(λ)λTA(λ)+A(λ)

因为A(λ)0,因此

λ=Eq(Z|ϕ)[η(Z,x)]

同理

ϕ=Eq(β|λ)[η(β,x)]

随机梯度变分推断

不同于mean field,随机梯度变分推断将分布q(z|ϕ)看为关于ϕ的分布,通过对ϕ进行优化得到最优的分布。

ϕL=ϕEq(z|ϕ)[log(p(x,z))log(q(z|ϕ))]=Eq(z|ϕ)[ϕ[logq(z|ϕ](logp(x,z)logq(z|ϕ))]

随后用蒙塔卡罗就可以近似出梯度,虽然直接使用蒙特卡洛会造成方差较大,可以通过重参数技巧进行减小方差(在VAE中也有用到)。重参数后的计算参见SGVI。

参考

  1. WallE-Chang SGVI repository

  2. ws13685555932 machine learning derivative repository

  3. shuhuai008 SGVI

posted @   Neo_DH  阅读(467)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
点击右上角即可分享
微信分享提示