概率图模型——变分法

概率图模型——变分法

参考书籍:张连文 等著. 《贝叶斯网络引论》

变分法的基本思想是通过变分转换,将概率推理问题转化为一个变分优化问题来处理。具体描述如下: 设$N$为一个贝叶斯网络,表示联合分布$P(x)$。设观测到的证据为$E=e$,所有非证据变量的集合为$Z={Z_1,Z_2,...,Z_n}$,准备计算的是$P(E=e)$和$P(Z\mid E=e)$。 变分法首先把这个概率推理问题转换为变分优化问题,定义如下的目标函数:

$$ J(Q)=\log P(E=e)-KL[Q(Z),P(Z|E=e)] $$

这里$Q(z)$是一族用来近似$P(Z\mid E=e)$的参数化分布,称为变分分布,而$KL[Q(z),P(Z\mid E=e)]$是变分分布$Q(z)$和待求的后验概率分布$P(Z\mid E=e)$之间的$KL$距离。上式可以展开为:

$$ \begin{aligned} J(Q)&=\log P(E=e)-\sum_Z Q(Z)\log \frac{Q(Z)}{P(Z\mid E=e)}\\ &=\log P(E=e) - \sum_Z Q(Z)\log \frac{Q(Z)P(E=e)}{P(Z,E=e)}\\ &=-\sum_Z Q(Z)\log Q(Z) + \sum_Z Q(Z)\log P(Z,E=e)\\ &=H_Q(Z)+\sum_Z Q(Z)\log P(Z,E=e) \end{aligned} $$

其中,上式中$H_Q(Z)$是$Z$相对于变分分布的$Q(Z)$的熵。 考虑目标函数$J(Q)$的最大值点$Q^*$的性质,因为$KL$距离非负,且只有当它涉及到的两个分布相同的时候才能够取得最小值0,所以$J(Q)$取最大值的最优变分分布就是后验概率,即

$$ Q^*(Z)=P(Z\mid E=e) $$

此时,

$$ J(Q^*)=\log P(E=e) $$

因此,只要解决了这个变分优化问题,就得到了原概率问题的精确解。在实际中,上述变分优化问题的精确解其实并不容易得到,一个根本的原因就是变分分布$Q(Z)$的空间难以显示表达。因此,为了简化计算,朴素平均场法根据平均场理论的思想,将变分分布限制在一类简单的分布上,即用所有变量都相互独立的分布来近似后验分布,即:

$$ Q(Z)=\prod_{i=1}^n Q(Z_i) $$

尽管这是个很简单的分布,仍然有$\sum_{i=1}^n (\mid Z_i\mid-1)$个独立参数可以调节,代入前面的式子中,可以得到:

$$ J(Q)=\sum_{i=1}^n H_{Q_i}(Z_i) + \sum_Z [\prod_{i=1}^n Q_i(Z_i)]\log P(Z,E=e) $$

该式一般没有闭公式解,根据上上式,变分分布$Q(Z)$的边缘分布可以独立地改变,因此,可以利用如下的迭代法来优化目标函数$J(Q)$:
(1)可以从某个初始分布$Q^0(Z)$开始;
(2)repeat 直到收敛
	for i=1到n
	以$J(Q)$为目标函数,对变分边缘分布$Q_i(Z_i)$进行优化
posted @ 2016-07-25 21:14  PhHuangXiao  阅读(1414)  评论(0编辑  收藏  举报