变分贝叶斯

https://en.wikipedia.org/wiki/Variational_Bayesian_methods

英文版的解释，表示这是个啥，完全看不懂！！！

http://www.blog.huajh7.com/variational-bayes/

还是喜欢看接地气的博客

一、前言

上世纪90年代，变分推断在概率模型上得到迅速发展，在贝叶斯框架下一般的变分法由Attias的两篇文章给出。Matthew J.Beal的博士论文《Variational Algorithms for Approximate Bayesian Inference》中有比较充分地论述，作者将其应用于隐马尔科夫模型，混合因子分析，线性动力学，图模型等。变分贝叶斯是一类用于贝叶斯估计和机器学习领域中近似计算复杂（intractable）积分的技术。它主要应用于复杂的统计模型中，这种模型一般包括三类变量：观测变量(observed variables, data)，未知参数（parameters）和潜变量（latent variables）。在贝叶斯推断中，参数和潜变量统称为不可观测变量(unobserved variables)。变分贝叶斯方法主要是两个目的:

(1) 近似不可观测变量的后验概率，以便通过这些变量作出统计推断。

(2) 对一个特定的模型，给出观测变量的边缘似然函数（或称为证据，evidence）的下界。主要用于模型的选择，认为模型的边缘似然值越高，则模型对数据拟合程度越好，该模型产生Data的概率也越高。

对于第一个目的，蒙特卡洛模拟，特别是用Gibbs取样的MCMC方法，可以近似计算复杂的后验分布，能很好地应用到贝叶斯统计推断。此方法通过大量的样本估计真实的后验，因而近似结果带有一定的随机性。与此不同的是，变分贝叶斯方法提供一种局部最优，但具有确定解的近似后验方法。

从某种角度看，变分贝叶斯可以看做是EM算法的扩展，因为它也是采用极大后验估计(MAP)，即用单个最有可能的参数值来代替完全贝叶斯估计。另外，变分贝叶斯也通过一组相互依然（mutually dependent）的等式进行不断的迭代来获得最优解。

二、问题描述

重新考虑一个问题：1）有一组观测数据

正如上文所描述的后验概率的形式通常是很复杂(Intractable)的,对于一种算法如果不能在多项式时间内求解，往往不是我们所考虑的。因而我们想能不能在误差允许的范围内，用更简单、容易理解(tractable)的数学形式

由此引出如下两个问题：

（1）假设存在这样的

（2）如何得到简单的

对于问题一，幸运的是，我们不需要重新定义一个度量指标。在信息论中，已经存在描述两个随机分布之间距离的度量，即相对熵，或者称为Kullback-Leibler散度。

对于问题二，显然我们可以自主决定

幸运的是，统计物理学界很早就关注了高维概率函数与它的简单形式，并发展了平均场理论。简单讲就是：系统中个体的局部相互作用可以产生宏观层面较为稳定的行为。于是我们可以作出后验条件独立（posterior independence）的假设。即，

三、Kullback-Leibler散度

在统计学中，相对熵对应的是似然比的对数期望，相对熵

定义两个概率密度函数为

KL散度有如下性质：

（1）

（2）

（3）不满足三角不等式。

D K L (Q | | P) = \sum Z Q (Z) log Q ( Z ) P ( Z | D

或者

log P (D) = D K L (Q | | P) - \sum Z Q (Z) log Q ( Z )

由于对数证据

L (Q) = \sum Z Q (Z) log P (Z, D) - \sum Z Q (Z) log Q (Z) = E Q [log

四、平均场理论（Mean Field Method）

数学上说，平均场的适用范围只能是完全图，或者说系统结构是well-mixed，在这种情况下，系统中的任何一个个体以等可能接触其他个体。反观物理，平均场与其说是一种方法，不如说是一种思想。其实统计物理的研究目的就是期望对宏观的热力学现象给予合理的微观理论。物理学家坚信，即便不满足完全图的假设，但既然这种“局部”到“整体”的作用得以实现，那么个体之间的局部作用相较于“全局”的作用是可以忽略不计的。

根据平均场理论，变分分布

Q (Z) = \prod i = 1 M q (Z i | D)

注意这里并非一个不可观测变量一个划分，而应该根据实际情况做决定。当然你也可以这么做，但是有时候，将几个潜变量放在一起会更容易处理。

4.1 平均场方法的合理性

在量子多体问题中，用一个（单体）有效场来代替电子所受到的其他电子的库仑相互作用。这个有效场包含所有其他电受到的其他电子的库仑相互作用。这个有效场包含了所有其他电子对该电子的相互作用。利用有效场取代电子之间的库仑相互作用之后，每一个电子在一个有效场中运动，电子与电子之间的运动是独立的(除了需要考虑泡利不相容原理)，原来的多体问题转化为单体问题。

同样在变分分布

Q (Z i) \propto 1 C exp ⟨ ln P ( Z i , Z - i , D ) ⟩ Q (

（为保持文章的连贯性，此处先不证明，下文将详细说明）

于是，对于某个划分

具体更新边缘概率（VB-marginal）步骤如下：

（1）初始化

（2）在第k步，计算

（3）计算

（4）理论上

（5）最后，得

4.2 平均场估计下边缘概率的无意义性（VB-marginals）

注意到

比如一个标准的高斯联合分布

五、边缘密度（VB-marginal）公式的推导

上文已经提到我们要找到一个更加简单的函数

5.1 泛函的概念

【泛函】设对于(某一函数集合内的)任意一个函数

泛函不同于复合函数，例如

泛函的形式多种多样，通常可以积分形式：

5.2 泛函取极值的必要条件

泛函的极值

“当变量函数为

所谓函数

有时还要求

这里的

Euler–Lagrange方程

可以仿造函数极值必要条件的导出办法，导出泛函取极值的必要条件，这里不做严格的证明，直接给出。泛函

\partial F \partial y - d d x \partial F \partial y ' = 0

泛函的条件极值

在约束条件下求函数

(\partial \partial y - d d x \partial \partial y ' ) ( F - λ G ) = 0

5.3 问题求解

对于

其中

考虑划分

其中定义

此时得到泛函，

注意到

\forall i . \partial \partial Q i ( Z i ) { - D K L [ Q i (

直接求解将得到Gibbs分布，略显复杂;实际上，注意到KL散度，我们可以直接得到KL散度等于0的时候，

Q i (Z i) = Q * i (Z i) = 1 C exp ⟨ ln P ( Z i ,

posted @ 2015-11-14 20:43 maxandhchen 阅读(644) 评论(0) 编辑收藏举报

刷新页面返回顶部

变分贝叶斯

公告