PRML-10 变分推断-1


为什么需要近似推断
现在棘手的问题在于
1.xzθ
2.


两种方法达到近似推断
1.决定性方法,-有解析解,快速,但是求出的是局部解
2.随机性方法,-慢,要采样多次,但是可以得到全局解(有证明的)

决定性推断有哪些?
1.拉普拉斯近似,使用一个高斯分布区近似,但是是局部解,有可能这个分布是多峰的,没法精确近似
2.变分推断(本章)-全局解方法
3.期望传播

变分推断是基于泛函分析的,什么是泛函分析?
重点!!!!!!!!
function(函数):xt(f(x)),通过一个f将一个值x映射为另外一个值
functional(泛函):y(x)t(F(y)),
简单说泛函就是函数的函数

例子
比如说,熵的计算
H(p),pp(x)
还有KL散度,输入两个概率分布,得到一个值


所谓变分法,就是对泛函求导,求极值
泛函分析就是用变分法的取近似后验概率P(Z|X),Z是隐变量
也就是找一个概率分布q(Z)来逼近我们的后验分布P(Z|X)
逼近需要度量,用KL散度计算
fix p,扰动q,来使得KL散度达到最小
KL散度的公式,见上图
KL=0,即表示两个分布是一样的
p怎么求?没法得到,怎么解决?
p都知道了,还要求q干嘛呢?

对对数似然函数分解(第九章)+变分变量
lnp(X)=L(q)+KL(q||p)
Zθ
lnp(X)Xlnp(X)
qp(X,Z)KL()
p(X,Z),L
L
lnp(X)LKL(q||p)
L
L,L)


如何解决最大化问题呢,用的是平均场的方法,该方法用来限制/约束/假设q的分布
把隐变量/参数切成块(相互之间独立)-称为Factorized q distribution 分布分解,使得块之间可以乘积q(Z)=qi(Zi)
,q(Z),L

这是本章最重要的公式!!!-10.9


10.510.3
10.9
qjq10.9
Zj/p(X,Z)ln

qi


案例

两个隐变量/参数 z1,z2

z1,z2使10.9

Λ,z1
q110.12


这张图就可以看到,隐变量之间相互依赖,没法一次求得,要逐步迭代,重新估计,re-estimation


这个KL散度不是对称的,意思就是KL(p||q)KL(q||p)
如果要用KL(p||q)也是可以的,图里展示了公式,公式下面应该有分母,是关于p(Z),不应该q,所以去掉了
+qj(Zj)10.3
10.17?
绿线q线bp


这个图是用一个高斯分布去近似多峰的分布(多峰表示有多个众数)
蓝色是真实的二峰的等高线,用p||q 有点均衡了所有分布的意思

正式的例子


qp(μ,τ|x),μτ(,)

p(\my|\tao),p(τ)gamma
?
便

分解q(μ,τ)10.24

10.25 是一元二次方程,q(μ),q(τ)gamma

μ,τreestimation


绿pq,,bcμ,τd

Illustration :混合高斯的变分

目标:关于隐变量和参数的后验分布的推断(类似第九章EM)


π1of K
π,μ,Λ
p(Z|π)(10.37)p(π)
10.40μ,Λp(μ|Λ)p(Λ)
(μ,Λ)

这里展示了有向图模型
展示了观测x的生成过程

p(Z,π,μ,Λ|X)
q(Z,π,μ,Λ)p
q?
10.9


10.45 两边取指数
10.47 未归一化
怎么做归一化
先得到10.47 这样一个正比例关系,因为有常数项,所以这里先做正比例关系
znk one hot vector
所以对10.47 的右边做归一化
N是数据点的个数,K是分类数,或者叫component
ρ
fix n,k

把k看做聚类的簇
Nkk
xk
Sk

上面考虑了q(Z),先开始考虑q(π)


继续使用10.9公式
继续分解,π 可以分解出来
前面的分解q(Z,π,μ,Λ)=q(Z)q(π,μ,Λ)

继续分而治之,推导出q(π)是狄利克雷分布
然后这里又是一层依赖关系,要计算q(π)要依赖于rnk,而计算rnk 就依赖于q(Z),回到前面 q(Z) 又依赖于q(π)
分而治之的另外一部分 10.59 公式
中间又有依赖关系,不理了,太烦了

数学公式,记号的回顾,好几个量,或者中间量

总结

要用贝叶斯框架计算高斯混合模型中的隐变量的后验估计
总结就是一个变分EM的算法

另外一个方法是用变分下界进行估计-用的是参数法(对L参数化),不是变分法

新值的估计


对z做sum up,隐去z
发现x^ 就是服从一个高斯混合模型
加上隐变量,x^服从的是高斯分布
但是10.79 中这部分很难算
用q近似,

从10.79-10.80 中间有一步积分过程
解10.80 得到10.81 得到是一个混合t分布

例子

对贝叶斯回归模型做变分推断

先验设置为gamma分布是因为高斯的共轭先验是gamma,简化运算


β,ϕ
αgiveαwgivenwtn


α,w
q(w),q(α)gamma



1.EM
2.


这个方法中的分布是人为设定的,而变分推断的分布是推算出来的,所以变分法更为灵活

关于指数分布族的问题

X
所以引入了隐变量
η

q(Z,η)q(Z)q(η)


Zη

重要的关于指数族的结论

p(X,Z|η),q(Z),q(η),
q(Z),q(η)广

posted @   筷点雪糕侠  阅读(330)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示