从高斯分布到信息矩阵

从高斯分布到信息矩阵

本文章的所有证明推导均为个人记录,如有错误欢迎指出,且所有均参考贺一家博士和高翔博士的相关证明,其他的部分参考文献也在文末给出。

1. SLAM 问题概率建模

考虑某个状态 \(\boldsymbol{\xi}\) ,以及一次与该状态相关的观测 \(\mathbf{r}_{i}\) 。由于噪声的存在, 观测服从概率分布 \(p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)\) ,更准确来说,这里我们假设其是高斯分布(有一个分布的最高点,最可能是真正观测的地方)多次观测时,各个测量值相互独立,则多个测量 \(\mathbf{r}=\left(\mathbf{r}_{1}, \ldots, \mathbf{r}_{n}\right)^{\top}\) 构建的似然概率为:

\[p(\mathbf{r} \mid \boldsymbol{\xi})=\prod_{i} p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right) \]

如果知道机器人状态的先验信息 \(p(\boldsymbol{\xi})\) ,如 GPS、车轮码盘信息等,则根据 Bayes 法则, 有后验概率:

\[p(\boldsymbol{\xi} \mid \mathbf{r})=\frac{p(\mathbf{r} \mid \boldsymbol{\xi}) p(\boldsymbol{\xi})}{p(\mathbf{r})} \]

通过最大后验估计,获得系统状态的最优估计:

\[\boldsymbol{\xi}_{\mathrm{MAP}}=\arg \max _{\boldsymbol{\xi}} p(\boldsymbol{\xi} \mid \mathbf{r}) \]

后验公式中分母跟状态量无关, 舍弃。最大后验变成了:

\[\boldsymbol{\xi}_{\mathrm{MAP}}=\arg \max _{\boldsymbol{\xi}} \prod_{i} p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right) p(\boldsymbol{\xi}) \]

\[\boldsymbol{\xi}_{\mathrm{MAP}}=\arg \min _{\boldsymbol{\xi}}\left[-\sum_{i} \log p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)-\log p(\boldsymbol{\xi})\right] \]

我们假设观测值服从多元高斯分布:

\[p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right), p(\boldsymbol{\xi})=\mathcal{N}\left(\boldsymbol{\mu}_{\xi}, \boldsymbol{\Sigma}_{\boldsymbol{\xi}}\right) \]

则有:

\[\boldsymbol{\xi}_{\mathrm{MAP}}=\underset{\boldsymbol{\xi}}{\operatorname{argmin}} \sum_{i}\left\|\mathbf{r}_{i}-\boldsymbol{\mu}_{i}\right\|_{\boldsymbol{\Sigma}_{i}}^{2}+\left\|\boldsymbol{\xi}-\boldsymbol{\mu}_{\boldsymbol{\xi}}\right\|_{\boldsymbol{\Sigma}_{\boldsymbol{\xi}}}^{2} \]

这个最小二乘的求解:

\[\mathbf{J}^{\top} \boldsymbol{\Sigma}^{-1} \mathbf{J} \delta \boldsymbol{\xi}=-\mathbf{J}^{\top} \boldsymbol{\Sigma}^{-1} \mathbf{r} \]

2.高斯分布和协方差矩阵

2.1多元高斯分布

下图是一个2元的零均值高斯分布图像:

零均值的多元高斯分布有如下概率形式:

\[p(\mathbf{x})=\frac{1}{Z} \exp \left(-\frac{1}{2} \mathbf{x}^{\top} \boldsymbol{\Sigma}^{-1} \mathbf{x}\right) \]

其中 \(\boldsymbol{\Sigma}\) 是协方差矩阵,协方差矩阵的 逆记作 \(\boldsymbol{\Lambda}=\mathbf{\Sigma}^{-1}\) ,比如变量 \(\mathrm{X}\) 为三维的变量时, 协方差矩阵为:

\[\boldsymbol{\Sigma}=\left[\begin{array}{lll} \Sigma_{11} & \Sigma_{12} & \Sigma_{13} \\ \Sigma_{21} & \Sigma_{22} & \Sigma_{23} \\ \Sigma_{31} & \Sigma_{32} & \Sigma_{33} \end{array}\right] \]

其中 \(\Sigma_{i j}=E\left(x_{i} x_{j}\right)\) 为对应元素求期望。


2.2 Toy Example One

\(x_2\) 为室外的温度,\(x_1,x_3\) 分别为房间 \(1\) 和房间 \(3\) 的室内温度,且三个变量之间有如下关系:

\[\begin{array}{l} x_{2}=v_{2} \\ x_{1}=w_{1} x_{2}+v_{1} \\ x_{3}=w_{3} x_{2}+v_{3} \end{array} \]

其中, \(v_{i}\) 相互独立,且各自服从零均值, 协方差为 \(\sigma_{i}^{2}\) 的高斯分布。

从上述关系,根据协方差公式的计算方式,我们可以写出 \(\mathrm{x}\) 的协方差 矩阵, 先从对角元素开始计算:

\[\begin{aligned} \Sigma_{11}=E\left(x_{1} x_{1}\right) & =E\left(\left(w_{1} v_{2}+v_{1}\right)\left(w_{1} v_{2}+v_{1}\right)\right) \\ & =w_{1}^{2} E\left(v_{2}^{2}\right)+2 w_{1} E\left(v_{1} v_{2}\right)+E\left(v_{1}^{2}\right) \\ & =w_{1}^{2} \sigma_{2}^{2}+\sigma_{1}^{2} \end{aligned} \]

同理有 \(\Sigma_{22}=\sigma_{2}^{2}, \Sigma_{33}=w_{3}^{2} \sigma_{2}^{2}+\sigma_{3}^{2} .\) 对于协方差矩阵的非对角元素:

\[\begin{array}{l} \Sigma_{12}=E\left(x_{1} x_{2}\right)=E\left(\left(w_{1} v_{2}+v_{1}\right) v_{2}\right)=w_{1} \sigma_{2}^{2} \\ \Sigma_{13}=E\left(\left(w_{1} v_{2}+v_{1}\right)\left(w_{3} v_{2}+v_{3}\right)\right)=w_{1} w_{3} \sigma_{2}^{2} \end{array} \]

以此类推,可以得到整个协方差矩阵:

\[\boldsymbol{\Sigma}=\left[\begin{array}{ccc} w_{1}^{2} \sigma_{2}^{2}+\sigma_{1}^{2} & w_{1} \sigma_{2}^{2} & w_{1} w_{3} \sigma_{2}^{2} \\ w_{1} \sigma_{2}^{2} & \sigma_{2}^{2} & w_{3} \sigma_{2}^{2} \\ w_{1} w_{3} \sigma_{2}^{2} & w_{3} \sigma_{2}^{2} & w_{3}^{2} \sigma_{2}^{2}+\sigma_{3}^{2} \end{array}\right] \]

我们本次讨论的是协方差矩阵的逆,那么如何计算其逆呢。我们可以通过联合高斯分布从而得到协方差矩阵的逆:

\[\begin{aligned} p\left(x_{1}, x_{2}, x_{3}\right) & =p\left(x_{2}\right) p\left(x_{1} \mid x_{2}\right) p\left(x_{3} \mid x_{2}\right) \\ & =\frac{1}{Z_{2}} \exp \left(-\frac{x_{2}^{2}}{2 \sigma_{2}^{2}}\right) \frac{1}{Z_{1}} \exp \left(-\frac{\left(x_{1}-w_{1} x_{2}\right)^{2}}{2 \sigma_{1}^{2}}\right) \frac{1}{Z_{3}} \exp \left(-\frac{\left(x_{3}-w_{3} x_{2}\right)^{2}}{2 \sigma_{3}^{2}}\right) \end{aligned} \]

这里为什么要拆分成这种形式呢,因为我们知道 \(x_2,(x_1,x_2),(x_3,x_2)\) 之间的相互关系,很容易写出其条件概率分布。

利用指数性质求出联合概率分布:

\[\begin{aligned} p\left(x_{1},\right. & \left.x_{2}, x_{3}\right) \\ & =\frac{1}{Z} \exp \left(-\frac{x_{2}^{2}}{2 \sigma_{2}^{2}}-\frac{\left(x_{1}-w_{1} x_{2}\right)^{2}}{2 \sigma_{1}^{2}}-\frac{\left(x_{3}-w_{3} x_{2}\right)^{2}}{2 \sigma_{3}^{2}}\right) \\ & =\frac{1}{Z} \exp \left(-x_{2}^{2}\left[\frac{1}{2 \sigma_{2}^{2}}+\frac{w_{1}^{2}}{2 \sigma_{1}^{2}}-\frac{w_{3}^{2}}{2 \sigma_{3}^{2}}\right]-x_{1}^{2} \frac{1}{2 \sigma_{1}^{2}}+2 x_{1} x_{2} \frac{w_{1}}{2 \sigma_{1}^{2}}-x_{3}^{2} \frac{1}{2 \sigma_{3}^{2}}+2 x_{3} x_{2} \frac{w_{3}}{2 \sigma_{3}^{2}}\right) \\ & =\frac{1}{Z} \exp \left(-\frac{1}{2}\left[\begin{array}{lll} x_{1} & x_{2} & x_{3} \end{array}\right]\left[\begin{array}{ccc} \frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} & 0 \\ -\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}+\frac{w_{3}^{2}}{\sigma_{3}^{2}} & -\frac{w_{3}}{\sigma_{3}^{2}} \\ 0 & -\frac{w_{3}}{\sigma_{3}^{2}} & \frac{1}{\sigma_{3}^{2}} \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right]\right) \end{aligned} \]

由此得到协方差矩阵的逆,即信息矩阵:

\[\boldsymbol{\Lambda}=\boldsymbol{\Sigma}^{-1}=\left[\begin{array}{ccc} \frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} & 0 \\ -\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}+\frac{w_{3}^{2}}{\sigma_{3}^{2}} & -\frac{w_{3}}{\sigma_{3}^{2}} \\ 0 & -\frac{w_{3}^{2}}{\sigma_{3}^{2}} & \frac{1}{\sigma_{3}^{2}} \end{array}\right] \]

注意:信息矩阵中有两个元素为 \(0\) ,它有什么具体含义呢? 协方差逆矩阵中如果坐标为 \((i, j)\) 的元素为 \(0\) , 表示元素 \(i\)\(j\) 关于其他变量条件独立,上面的例子中意味着变量 \(x_{1}\)\(x_{3}\) 关于 \(x_{2}\) 条件独立(在\(x_2\)确定的条件下,\(x_1,x_3\)相互独立)。
假设室内温度和室外温度正相关 \(\left(w_{i}>0\right)\)

  • 协方差中非对角元素 \(\Sigma_{i j}>0\) 表示两变量是正相关。
  • 信息矩阵中非对角元素为负数, 甚至为 0 。 \(\Lambda_{12}<0\) 表示在变量 \(x_{3}\) 发生的条件下, 元素 \(x_{1}\)\(x_{2}\) 正相关。

2.3 Toy Example Two

比如特征三角化,两个相机 pose 得到特征三维坐标:

其三个变量之间的关系可以抽象成:

\[x_2=w_1x_1+w_3x_3+v_2 \]

同理,根据协方差矩阵的定义,可以得到协方差矩阵:

\[\boldsymbol{\Sigma}=\left[\begin{array}{ccc} \sigma_{1}^{2} & w_{1} \sigma_{1}^{2} & 0 \\ w_{1} \sigma_{1}^{2} & \sigma_{2}^{2}+w_{1}^{2} \sigma_{1}^{2}+w_{3}^{2} \sigma_{3}^{2} & w_{3} \sigma_{3}^{2} \\ 0 & w_{3} \sigma_{3}^{2} & \sigma_{3}^{2} \end{array}\right] \]

协方差矩阵中非对角元素为 0 表示变量之间没有相关性。这是否意味着信息矩阵中也会为 0 呢?

按照例子 1 中的方式,求取协方差矩阵的逆:

\[\begin{array}{l} p\left(x_{1}, x_{2}, x_{3}\right)=p\left(x_{1}\right) p\left(x_{3}\right) p\left(x_{2} \mid x_{1}, x_{3}\right) \\ \quad=\frac{1}{Z_{1}} \exp \left(-\frac{x_{1}^{2}}{2 \sigma_{1}^{2}}\right) \frac{1}{Z_{3}} \exp \left(-\frac{x_{3}^{2}}{2 \sigma_{3}^{2}}\right) \frac{1}{Z_{2}} \exp \left(-\frac{\left(x_{2}-w_{1} x_{1}-w_{3} x_{3}\right)^{2}}{2 \sigma_{2}^{2}}\right) \end{array} \]

将变量整成向量形式:

\[\begin{aligned} p\left(x_{1}, x_{2}, x_{3}\right) & =\frac{1}{Z} \exp \left(-\frac{x_{1}^{2}}{2 \sigma_{1}^{2}}-\frac{x_{3}^{2}}{2 \sigma_{3}^{2}}-\frac{\left(x_{2}-w_{1} x_{1}-w_{3} x_{3}\right)^{2}}{2 \sigma_{2}^{2}}\right) \\ & =\frac{1}{Z} \exp \left(-\frac{1}{2}\left[\begin{array}{lll} x_{1} & x_{2} & x_{3} \end{array}\right]\left[\begin{array}{ccc} \frac{1}{\sigma_{1}^{2}}+\frac{w_{1}^{2}}{\sigma_{2}^{2}} & -\frac{w_{1}}{\sigma_{2}^{2}} & \frac{w_{1} w_{3}}{\sigma_{2}^{2}} \\ -\frac{w_{1}}{\sigma_{2}^{2}} & \frac{1}{\sigma_{2}^{2}} & -\frac{w_{3}}{\sigma_{2}^{2}} \\ \frac{w_{1} w_{3}}{\sigma_{2}^{2}} & -\frac{w_{3}}{\sigma_{2}^{2}} & \frac{1}{\sigma_{3}^{2}}+\frac{w_{3}^{2}}{\sigma_{2}^{2}} \end{array}\right]\left[\begin{array}{l} x_{1} \\ x_{2} \\ x_{3} \end{array}\right]\right) \end{aligned} \]

从上面推导出的信息矩阵来看,

  • 虽然 \(x_1\)\(x_3\) 不相关,但是不说明他们的信息矩阵对应元素 \(\Lambda_{13}\)为 0。
  • 恰恰信息矩阵中 \(\Lambda_{13}>0\), 表示的是在变量 \(x_2\) 发生的条件下,变量 \(x_1\) , \(x_3\) 成负相关。
  • 对应上面的例子即 \(x_2\) 为常数,如果 \(x_1\) 大,则 \(x_3\) 小。

疑问:如果我们移除变量,信息矩阵或协方差矩阵如何变化呢?


  • Example 1 中去除变量 \(x_3\)

协方差如何变化?

利用协方差的计算公式可知,\(x_1 , x_2\) 计算协方差时跟 \(x_3\),并无关系,所以就能得到去除 \(x_3\) 后的协方差矩阵:

\[\boldsymbol{\Sigma}_{2}=\left[\begin{array}{cc} w_{1}^{2} \sigma_{2}^{2}+\sigma_{1}^{2} & w_{1} \sigma_{2}^{2} \\ w_{1} \sigma_{2}^{2} & \sigma_{2}^{2} \end{array}\right] \]

信息矩阵如何变化?

同样,我们只需要把信息矩阵中 \(x_3\) 对应的部分,也就是\(\sigma_3\)对应的部分去掉就可以:

\[\boldsymbol{\Sigma}_{2}^{-1}=\left[\begin{array}{cc} \frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} \\ -\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}} \end{array}\right] \]

我们再来和原先的信息矩阵对比一下:

\[\boldsymbol{\Sigma}_{1}^{-1}=\left[\begin{array}{ccc} \frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} & 0 \\ -\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}+\frac{w_{3}^{2}}{\sigma_{3}^{2}} & -\frac{w_{3}}{\sigma_{3}^{2}} \\ 0 & -\frac{w_{3}^{2}}{\sigma_{3}^{2}} & \frac{1}{\sigma_{3}^{2}} \end{array}\right] \]

实际操作过程中通常是引入 marginalization (边缘化)Schur’s complement (舒尔补) 来解决这个问题。

3. 舒尔补应用

3.1 舒尔补定义

给定任意的矩阵块 \(M\) , 如下所示:

\[\mathbf{M}=\left[\begin{array}{ll} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right] \]

  • 如果, 矩阵块 \(\mathbf{D}\) 是可逆的, 则 \(\mathbf{A}-\mathbf{B D}^{-1} \mathbf{C}\) 称之为 \(\mathbf{D}\) 关于 \(\mathrm{M}\) 的舒尔补。
  • 如果, 矩阵块 \(\mathbf{A}\) 是可逆的, 则 \(\mathbf{D}-\mathbf{C A}^{-1} \mathbf{B}\) 称之为 \(\mathbf{A}\) 关于 \(\mathbf{M}\) 的舒尔补。

\(\mathbf{M}\) 矩阵变成上三角或者下三角形过程中,都会遇到舒尔补:

\[\begin{array}{l} {\left[\begin{array}{cc} \mathbf{I} & \mathbf{0} \\ -\mathbf{C A}^{-1} & \mathbf{I} \end{array}\right]\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right]=\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{0} & \Delta_{\mathbf{A}} \end{array}\right]} \\ {\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right]\left[\begin{array}{cc} \mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right]=\left[\begin{array}{cc} \mathbf{A} & 0 \\ \mathbf{C} & \Delta_{\mathbf{A}} \end{array}\right]} \end{array} \]

其中: \(\Delta_{\mathbf{A}}=\mathbf{D}-\mathbf{C A}^{-1} \mathbf{B}\) 。联合起来,将 \(\mathbf{M}\) 变形成对角形:

\[\left[\begin{array}{cc} \mathbf{I} & \mathbf{0} \\ -\mathbf{C A}^{-1} & \mathbf{I} \end{array}\right]\left[\begin{array}{ll} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right]\left[\begin{array}{cc} \mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right]=\left[\begin{array}{cc} \mathbf{A} & \mathbf{0} \\ \mathbf{0} & \Delta_{\mathbf{A}} \end{array}\right] \]

反过来,我们又能从对角形恢复成矩阵 \(\mathbf{M}\) :

\[\left[\begin{array}{cc} \mathbf{I} & \mathbf{0} \\ \mathbf{C A}^{-1} & \mathbf{I} \end{array}\right]\left[\begin{array}{cc} \mathbf{A} & \mathbf{0} \\ \mathbf{0} & \Delta_{\mathbf{A}} \end{array}\right]\left[\begin{array}{cc} \mathbf{I} & \mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right]=\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right] \]

使用舒尔补分解可快速求解矩阵 \(\mathbf{M}\) 的逆

矩阵 \(\mathbf{M}\) 可写成:

\[\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right]=\left[\begin{array}{cc} \mathbf{I} & \mathbf{0} \\ \mathbf{C A}^{-1} & \mathbf{I} \end{array}\right]\left[\begin{array}{cc} \mathbf{A} & \mathbf{0} \\ \mathbf{0} & \Delta_{\mathbf{A}} \end{array}\right]\left[\begin{array}{cc} \mathbf{I} & \mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right] \]

由此可得矩阵 \(\mathbf{M}\) 的逆:

\[\left[\begin{array}{cc} \mathbf{A} & \mathbf{B} \\ \mathbf{C} & \mathbf{D} \end{array}\right]^{-1}=\left[\begin{array}{cc} \mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right]\left[\begin{array}{cc} \mathbf{A}^{-1} & \mathbf{0} \\ \mathbf{0} & \Delta_{\mathbf{A}}^{-1} \end{array}\right]\left[\begin{array}{cc} \mathbf{I} & \mathbf{0} \\ -\mathbf{C A}^{-1} & \mathbf{I} \end{array}\right] \]

因为:

\[\left[\begin{array}{cc} \mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right]\left[\begin{array}{cc} \mathbf{I} & \mathbf{A}^{-1} \mathbf{B} \\ \mathbf{0} & \mathbf{I} \end{array}\right]=\mathbf{I} \]

3.2 舒尔补应用于多元高斯分布

假设多元变量 \(\mathrm{x}\) 服从零均值高斯分布, 且由两部分组成: \(\mathbf{x}=\left[\begin{array}{l}a \\ b\end{array}\right]\) , 变量之间构成的协方差矩阵为:

\[\mathbf{K}=\left[\begin{array}{cc} A & C^{\top} \\ C & D \end{array}\right] \]

其中 $A=\operatorname{cov}(a, a), D=\operatorname{cov}(b, b), C=\operatorname{cov}(a, b) $. 由此变量 \(\mathbf{x}\) 的概率分布为:

\[P(a, b)=P(a) P(b \mid a) \propto \exp \left(-\frac{1}{2}\left[\begin{array}{l} a \\ b \end{array}\right]^{\top}\left[\begin{array}{cc} A & C^{\top} \\ C & D \end{array}\right]^{-1}\left[\begin{array}{l} a \\ b \end{array}\right]\right) \]

利用舒尔补快速求逆的公式可得:

\[\begin{array}{l} P(a, b) \\ \propto \exp \left(-\frac{1}{2}\left[\begin{array}{l} a \\ b \end{array}\right]^{\top}\left[\begin{array}{cc} A & C^{\top} \\ C & D \end{array}\right]^{-1}\left[\begin{array}{l} a \\ b \end{array}\right]\right) \\ \propto \exp \left(-\frac{1}{2}\left[\begin{array}{l} a \\ b \end{array}\right]^{\top}\left[\begin{array}{cc} I & -A^{-1} C^{\top} \\ 0 & I \end{array}\right]\left[\begin{array}{cc} A^{-1} & 0 \\ 0 & \Delta_{\mathrm{A}}^{-1} \end{array}\right]\left[\begin{array}{cc} I & 0 \\ -C A^{-1} & I \end{array}\right]\left[\begin{array}{l} a \\ b \end{array}\right]\right) \\ \propto \exp \left(-\frac{1}{2}\left[a^{\top}\left(b-C A^{-1} a\right)^{\top}\right]\left[\begin{array}{cc} A^{-1} & 0 \\ 0 & \Delta_{\mathbf{A}}^{-1} \end{array}\right]\left[\begin{array}{c} a \\ - \end{array}\right]\right) \\ \propto \exp \left(-\frac{1}{2}\left(a^{\top} A^{-1} a\right)+\left(b-C A^{-1} a\right)^{\top} \Delta_{\mathbf{A}}^{-1}\left(b-C A^{-1} a\right)\right) \\ \propto \underbrace{\exp \left(-\frac{1}{2} a^{\top} A^{-1} a\right)}_{p(a)} \underbrace{\exp \left(-\frac{1}{2}\left(b-C A^{-1} a\right)^{\top} \Delta_{\mathbf{A}}^{-1}\left(b-C A^{-1} a\right)\right)}_{p(b \mid a)} \end{array} \]

这意味着我们能从多元高斯分布 \(P(a,b)\) 中分解得到边际概率 \(p(a)\) 和条件概率 \(p(b|a)\)

  • \(P(a)\) 的启示

\[\begin{array}{l} P(a)=\int_{b} P(a, b) \\ P(a) \propto \exp \left(-\frac{1}{2} a^{\top} A^{-1} a\right) \sim \mathcal{N}(0, A) \end{array} \]

启示:边际概率的协方差就是从联合分布中取对应的矩阵块就行了。

  • \(\mathrm{P}(\mathrm{b} \mid \mathrm{a})\) 的启示

\[P(b \mid a) \propto \exp \left(-\frac{1}{2}\left(b-C A^{-1} a\right)^{\top} \Delta_{\mathbf{A}}^{-1}\left(b-C A^{-1} a\right)\right) \]

启示: \(P(b \mid a) \sim \mathcal{N}\left(C A^{-1} a, \Delta_{A}\right)\) 。协方差变为 \(a\) 对应的舒尔补, 均值也变了。

3.3 关于 P(a), P(b|a) 的信息矩阵

为什么要讨论 \(P (a), P (b|a)\) 的信息矩阵?因为基于优化的 SLAM 问题中,我们往往直接操作的是信息矩阵,而不是协方差矩阵。所以,有必要知道边际概率,条件概率的信息矩阵是何形式。

  • \(P(a), P(b|a)\)的信息矩阵,假设我们已知信息矩阵

    \[\left[\begin{array}{cc} A & C^{\top} \\ C & D \end{array}\right]^{-1}=\left[\begin{array}{cc} \Lambda_{a a} & \Lambda_{a b} \\ \Lambda_{b a} & \Lambda_{b b} \end{array}\right] \]

    另外, 由舒尔补快速求逆的公式可知, 协方差矩阵各块和信息矩阵之间有:

    \[\left[\begin{array}{cc} A & C^{\top} \\ C & D \end{array}\right]^{-1}=\left[\begin{array}{cc} A^{-1}+A^{-1} C^{\top} \Delta_{\mathrm{A}}^{-1} C A^{-1} & -A^{-1} C^{\top} \Delta_{\mathrm{A}}^{-1} \\ -\Delta_{\mathrm{A}}^{-1} C A^{-1} & \Delta_{\mathrm{A}}^{-1} \end{array}\right] \triangleq\left[\begin{array}{cc} \Lambda_{a a} & \Lambda_{a b} \\ \Lambda_{b a} & \Lambda_{b b} \end{array}\right] \]

  • \(P(a), P(b / a)\) 的信息矩阵
    由条件概率 \(P(b \mid a)\) 的协方差为 \(\Delta_{A}\) 以及上式,易得其信息矩阵为:

\[\Delta_{A}^{-1}=\Lambda_{b b} \]

​ 由边际概率 \(P(a)\) 的协方差为 \(A\) 以及上式得其信息矩阵为:

\[A^{-1}=\Lambda_{a a}-\Lambda_{a b} \Lambda_{b b}^{-1} \Lambda_{b a} \]

回顾样例1

从联合分布 \(P\left(x_{1}, x_{2}, x_{3}\right)\) 中 marg 掉变量 \(x_{3}\) , 即 \(P\left(x_{1}, x_{2}\right)\) 对应的信息矩阵可以用上式得到。

\[\begin{aligned} \mathbf{K}_{2}^{-1} & =\Lambda_{a a}-\Lambda_{a b} \Lambda_{b b}^{-1} \Lambda_{b a} \\ & =\Lambda_{a a}-\left[\begin{array}{c} 0 \\ -\frac{w_{3}}{\sigma_{3}^{2}} \end{array}\right] \sigma_{3}^{2}\left[\begin{array}{ll} 0 & -\frac{w_{3}}{\sigma_{3}^{2}} \end{array}\right] \\ & =\Lambda_{a a}-\left[\begin{array}{cc} 0 & 0 \\ 0 & \frac{w_{3}}{\sigma_{3}^{2}} \end{array}\right]=\left[\begin{array}{cc} \frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} \\ -\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}} \end{array}\right] \end{aligned} \]

边际概率对于协方差矩阵的操作是很容易的,但不好操作信息矩阵。条件概率恰好相反,对于信息矩阵容易操作,不好操作协方差矩阵。对于非零均值的高斯分布,表格总结如下

\[P(\boldsymbol{a}, \boldsymbol{b})=\mathcal{N}\left(\left[\begin{array}{c} \boldsymbol{\mu}_{a} \\ \boldsymbol{\mu}_{b} \end{array}\right],\left[\begin{array}{ll} \boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\ \boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b} \end{array}\right]\right)=\mathcal{N}^{-1}\left(\left[\begin{array}{c} \boldsymbol{\eta}_{a} \\ \boldsymbol{\eta}_{b} \end{array}\right],\left[\begin{array}{cc} \boldsymbol{\Lambda}_{a a} & \boldsymbol{\Lambda}_{a a} \\ \boldsymbol{\Lambda}_{b a} & \boldsymbol{\Lambda}_{b b} \end{array}\right]\right) \]

Ref

  • Matthew R Walter, Ryan M Eustice, and John J Leonard. “Exactly sparse extended
    information filters for feature-based SLAM”. In: The International Journal of Robotics Research 26.4 (2007)
  • Huang. Conditional and marginal distributions of a multivariate Gaussian.
  • David Mackay. “The humble Gaussian distribution”. In: (2006).
posted @ 2023-09-06 15:57  weihao-ysgs  阅读(395)  评论(0编辑  收藏  举报