pgm4

这部分 cover 两个比较特殊的情形，一个是 Gaussian networks，一个是 exponential family。

正态分布常见的参数化策略是均值 $\mu$ 和协方差矩阵 $\Sigma$ ，另一种是使用 information matrix/precision matrix，即 $\Lambda = \Sigma^{-1}$ ，另可以用所谓 potential vector 代替 $\mu$ ，即 $h = \Lambda \mu$ 。小结一下如下

$\displaystyle\Pr (x) \propto \exp\left( -\frac{1}{2} (x - \mu)^\top \Sigma^{-1}) (x - \mu)\right) \propto \exp \left( -\frac{1}{2} x^\top \Lambda x + h^\top x\right)$

针对 Gaussian 分布有些常见的结论，比如 margin/conditional distribution，相关与独立性的关系这里不再赘述。

常见的 Gaussian Bayesian network 是指所有的 r.v.s 是 Gaussian，且 CPD 都是 LG（linear Gaussian）。可以证明对任意在 $X_1, \ldots, X_n$ 上的 Gaussian 分布，以及任意的 ordering（这里假定就是顺序的），可以构造对应的 BN 和图，使得 $X_i$ 的 parent 是 $X_1, \ldots, X_{i - 1}$ ，CPD 都是 LG 且对应的图是 minimal I-map。

如果从 MRF 的角度来看，二次型部分定义了一个 pairwise Markov network，我们称为 GMRF，我们可以容易的证明，

如果 $\Lambda$ 是 attractive 的，即 $-\frac{\Lambda_{i, j}}{\sqrt{\Lambda_{i, i} \Lambda_{j, j}}} \geq 0$
或者 $\Lambda$ 是严格主对角占优的，即 $\sum_{j \neq i} |\Lambda_{i, j}| < \Lambda_{i, i}$ ；
或者 $\Lambda$ 是 pairwise normalizable，即 $\forall i\neq j$ 对应 $\Lambda$ 对角元非负，且子二次型半正定

都能证明这是一个合法的 GMRF。

这里的指数族方面的分析并不从具体的例子（如 Gaussian 或者 Bernoulli）开始。我们直接定义

$\displaystyle \Pr(\xi) = \frac{1}{Z(\theta)} A(\xi) \exp\left( \langle t(\theta), \tau(\xi)\right)$

其中 $\tau: \mathcal{X} \mapsto \mathbb{R}^K$ 是充分统计量（feature），参数空间 $\theta \in \Theta\subseteq \mathbb{R}^M$ 是凸子集，而 $t: \Theta \mapsto \mathbb{R}^K$ 是自然参数函数（从 moment parameter 映射到 canonical parameter？），而 $A$ 是辅助测度，这可以看成是一个 MRF。当 $t$ 是 identity function 时，这是一个 log-linear model。这样我们根据这些 sufficient statistics 就能知道这个 MRG 的结构了。值得注意的是一般说来 BN 通过合适的 CPD 可能能得到 exponential family，但是一般都不是线性关系。

有了一般形式后，我们可以方便计算这个分布的熵

$H(\xi) = \log Z(\theta) - \langle \mathbb{E} \tau(\xi), t(\theta)\rangle$

这提示我们一般来说对于一个 MRF 而言其 entropy 具有类似的形式（log partition function – sum of expectation of log factor）。事实上对于 BN 来说，由于 $Z$ 为 1，相反更简单，并且由于 decouple 之后我们可以用条件熵表达出最后的联合熵。这样很容易证明，任意一个与某个 BN consistent 的分布的熵处于对此结构分别最大或者最小化熵之间。

对任意的分布 $q$ ，我们可以获得对一个 exponential family 的相对熵（KL divergence）：

$D(q \| p_\theta) = - H_q(\xi) - \langle \mathbb{E}_q \tau(\xi), t(\theta) \rangle + \log Z(\theta)$

特别的，如果 $q = p_\zeta$ ，则

$D(p_\zeta \| p_\theta) = - \langle \mathbb{E}_{p_{\zeta}} \tau(\xi), t(\theta) \rangle + \log \frac{Z(\theta)}{Z(\zeta)}$

类似可以导出 BN 的情形。

我们根据以上定义的 relative entropy 可以定义两个方向的投影（将分布 $p$ 投影到分布集合 $\mathcal{Q}$ 上）：

I-projection（information projection）： $\min_{q\in\mathcal{Q}} D(q \| p)$
M-projection（moment projection）： $\min_{q \in \mathcal{Q}} D(p \| q)$

为什么这么称呼这两种投影呢？我们知道 M-projection 中 $D(p \| q) = -H_p (\xi) - \mathbb{E}_p (\log q(\xi))$ 导致我们尽量的在 $p$ 的 support 处增大 $q$ ，这样就会得到一个相对较平的近似（方差较大）；而 I-projection 对应 $D(q \| p) = - H_q(\xi) - \mathbb{E}_q (\log p(\xi))$ ，会某种程度上要求减少 entropy，即相对更集中的反应 $p$ mode 区域的性质。

从理论上研究的话 M-projection 更容易一些，因为 I-projection 里面两项都存在贡献，而如果我们不能对 $p$ 做一些假设就很难进行下去。对 M-projection 来说，我们可以限定 $\mathcal{Q}$ 在某些简单的分布族上，比如 exponential family。

一个有趣的结论是如果我们限定 $q$ 是任意独立的，那么 M-projection 就是 $p$ 的 marginal distribution 的乘积。如果限定在指数族上，则得到的 $q$ 满足 $\mathbb{E}_{q(\theta)} \tau (\xi) = \mathbb{E}_{p} \tau (\xi)$ ，即充分统计量（feature）一阶矩在两个分布下能够 matching。对于给定图的 BN 的限定来说我们得到的 $q$ 必须满足 $p$ 对应的条件分布。

我们可以回想一下一些常见的做法：

EM 算法里面我们选择的 $q$ 是 I-projection，即正好是后验分布本身。
variational Bayesian 我们选择的变分后验（由于真实后验难以计算）也是真实后验的 I-projection，限定在我们给定分解（如全部独立）的情形下的解。
expectation propagation 我们选择的 moment matching，亦即选择的是通过 exponential family 做 M-projection，根据以上分析，EP 的优化等价于寻找合适的指数族分布使得在充分统计量上具有相同的一阶矩。

后面我们将开始学习 inference，正式进入第二部分。

——————-
And God said to him in a dream, Yes, I know that you did this in the integrity of your heart; for I also withheld you from sinning against me: therefore suffered I you not to touch her.

posted @ 2014-06-07 22:16 prml 阅读(469) 评论(0) 收藏举报

刷新页面返回顶部

pgm4

公告