从高斯分布到信息矩阵
本文章的所有证明推导均为个人记录,如有错误欢迎指出,且所有均参考贺一家博士和高翔博士的相关证明,其他的部分参考文献也在文末给出。
1. SLAM 问题概率建模
考虑某个状态 \(\boldsymbol{\xi}\) ,以及一次与该状态相关的观测 \(\mathbf{r}_{i}\) 。由于噪声的存在, 观测服从概率分布 \(p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)\) ,更准确来说,这里我们假设其是高斯分布(有一个分布的最高点,最可能是真正观测的地方)多次观测时,各个测量值相互独立,则多个测量 \(\mathbf{r}=\left(\mathbf{r}_{1}, \ldots, \mathbf{r}_{n}\right)^{\top}\) 构建的似然概率为:
\[p(\mathbf{r} \mid \boldsymbol{\xi})=\prod_{i} p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)
\]
如果知道机器人状态的先验信息 \(p(\boldsymbol{\xi})\) ,如 GPS、车轮码盘信息等,则根据 Bayes 法则, 有后验概率:
\[p(\boldsymbol{\xi} \mid \mathbf{r})=\frac{p(\mathbf{r} \mid \boldsymbol{\xi}) p(\boldsymbol{\xi})}{p(\mathbf{r})}
\]
通过最大后验估计,获得系统状态的最优估计:
\[\boldsymbol{\xi}_{\mathrm{MAP}}=\arg \max _{\boldsymbol{\xi}} p(\boldsymbol{\xi} \mid \mathbf{r})
\]
后验公式中分母跟状态量无关, 舍弃。最大后验变成了:
\[\boldsymbol{\xi}_{\mathrm{MAP}}=\arg \max _{\boldsymbol{\xi}} \prod_{i} p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right) p(\boldsymbol{\xi})
\]
即
\[\boldsymbol{\xi}_{\mathrm{MAP}}=\arg \min _{\boldsymbol{\xi}}\left[-\sum_{i} \log p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)-\log p(\boldsymbol{\xi})\right]
\]
我们假设观测值服从多元高斯分布:
\[p\left(\mathbf{r}_{i} \mid \boldsymbol{\xi}\right)=\mathcal{N}\left(\boldsymbol{\mu}_{i}, \boldsymbol{\Sigma}_{i}\right), p(\boldsymbol{\xi})=\mathcal{N}\left(\boldsymbol{\mu}_{\xi}, \boldsymbol{\Sigma}_{\boldsymbol{\xi}}\right)
\]
则有:
\[\boldsymbol{\xi}_{\mathrm{MAP}}=\underset{\boldsymbol{\xi}}{\operatorname{argmin}} \sum_{i}\left\|\mathbf{r}_{i}-\boldsymbol{\mu}_{i}\right\|_{\boldsymbol{\Sigma}_{i}}^{2}+\left\|\boldsymbol{\xi}-\boldsymbol{\mu}_{\boldsymbol{\xi}}\right\|_{\boldsymbol{\Sigma}_{\boldsymbol{\xi}}}^{2}
\]
这个最小二乘的求解:
\[\mathbf{J}^{\top} \boldsymbol{\Sigma}^{-1} \mathbf{J} \delta \boldsymbol{\xi}=-\mathbf{J}^{\top} \boldsymbol{\Sigma}^{-1} \mathbf{r}
\]
2.高斯分布和协方差矩阵
2.1多元高斯分布
下图是一个2元的零均值高斯分布图像:
零均值的多元高斯分布有如下概率形式:
\[p(\mathbf{x})=\frac{1}{Z} \exp \left(-\frac{1}{2} \mathbf{x}^{\top} \boldsymbol{\Sigma}^{-1} \mathbf{x}\right)
\]
其中 \(\boldsymbol{\Sigma}\) 是协方差矩阵,协方差矩阵的 逆记作 \(\boldsymbol{\Lambda}=\mathbf{\Sigma}^{-1}\) ,比如变量 \(\mathrm{X}\) 为三维的变量时, 协方差矩阵为:
\[\boldsymbol{\Sigma}=\left[\begin{array}{lll}
\Sigma_{11} & \Sigma_{12} & \Sigma_{13} \\
\Sigma_{21} & \Sigma_{22} & \Sigma_{23} \\
\Sigma_{31} & \Sigma_{32} & \Sigma_{33}
\end{array}\right]
\]
其中 \(\Sigma_{i j}=E\left(x_{i} x_{j}\right)\) 为对应元素求期望。
2.2 Toy Example One
设 \(x_2\) 为室外的温度,\(x_1,x_3\) 分别为房间 \(1\) 和房间 \(3\) 的室内温度,且三个变量之间有如下关系:
\[\begin{array}{l}
x_{2}=v_{2} \\
x_{1}=w_{1} x_{2}+v_{1} \\
x_{3}=w_{3} x_{2}+v_{3}
\end{array}
\]
其中, \(v_{i}\) 相互独立,且各自服从零均值, 协方差为 \(\sigma_{i}^{2}\) 的高斯分布。
从上述关系,根据协方差公式的计算方式,我们可以写出 \(\mathrm{x}\) 的协方差 矩阵, 先从对角元素开始计算:
\[\begin{aligned}
\Sigma_{11}=E\left(x_{1} x_{1}\right) & =E\left(\left(w_{1} v_{2}+v_{1}\right)\left(w_{1} v_{2}+v_{1}\right)\right) \\
& =w_{1}^{2} E\left(v_{2}^{2}\right)+2 w_{1} E\left(v_{1} v_{2}\right)+E\left(v_{1}^{2}\right) \\
& =w_{1}^{2} \sigma_{2}^{2}+\sigma_{1}^{2}
\end{aligned}
\]
同理有 \(\Sigma_{22}=\sigma_{2}^{2}, \Sigma_{33}=w_{3}^{2} \sigma_{2}^{2}+\sigma_{3}^{2} .\) 对于协方差矩阵的非对角元素:
\[\begin{array}{l}
\Sigma_{12}=E\left(x_{1} x_{2}\right)=E\left(\left(w_{1} v_{2}+v_{1}\right) v_{2}\right)=w_{1} \sigma_{2}^{2} \\
\Sigma_{13}=E\left(\left(w_{1} v_{2}+v_{1}\right)\left(w_{3} v_{2}+v_{3}\right)\right)=w_{1} w_{3} \sigma_{2}^{2}
\end{array}
\]
以此类推,可以得到整个协方差矩阵:
\[\boldsymbol{\Sigma}=\left[\begin{array}{ccc}
w_{1}^{2} \sigma_{2}^{2}+\sigma_{1}^{2} & w_{1} \sigma_{2}^{2} & w_{1} w_{3} \sigma_{2}^{2} \\
w_{1} \sigma_{2}^{2} & \sigma_{2}^{2} & w_{3} \sigma_{2}^{2} \\
w_{1} w_{3} \sigma_{2}^{2} & w_{3} \sigma_{2}^{2} & w_{3}^{2} \sigma_{2}^{2}+\sigma_{3}^{2}
\end{array}\right]
\]
我们本次讨论的是协方差矩阵的逆,那么如何计算其逆呢。我们可以通过联合高斯分布从而得到协方差矩阵的逆:
\[\begin{aligned}
p\left(x_{1}, x_{2}, x_{3}\right) & =p\left(x_{2}\right) p\left(x_{1} \mid x_{2}\right) p\left(x_{3} \mid x_{2}\right) \\
& =\frac{1}{Z_{2}} \exp \left(-\frac{x_{2}^{2}}{2 \sigma_{2}^{2}}\right) \frac{1}{Z_{1}} \exp \left(-\frac{\left(x_{1}-w_{1} x_{2}\right)^{2}}{2 \sigma_{1}^{2}}\right) \frac{1}{Z_{3}} \exp \left(-\frac{\left(x_{3}-w_{3} x_{2}\right)^{2}}{2 \sigma_{3}^{2}}\right)
\end{aligned}
\]
这里为什么要拆分成这种形式呢,因为我们知道 \(x_2,(x_1,x_2),(x_3,x_2)\) 之间的相互关系,很容易写出其条件概率分布。
利用指数性质求出联合概率分布:
\[\begin{aligned}
p\left(x_{1},\right. & \left.x_{2}, x_{3}\right) \\
& =\frac{1}{Z} \exp \left(-\frac{x_{2}^{2}}{2 \sigma_{2}^{2}}-\frac{\left(x_{1}-w_{1} x_{2}\right)^{2}}{2 \sigma_{1}^{2}}-\frac{\left(x_{3}-w_{3} x_{2}\right)^{2}}{2 \sigma_{3}^{2}}\right) \\
& =\frac{1}{Z} \exp \left(-x_{2}^{2}\left[\frac{1}{2 \sigma_{2}^{2}}+\frac{w_{1}^{2}}{2 \sigma_{1}^{2}}-\frac{w_{3}^{2}}{2 \sigma_{3}^{2}}\right]-x_{1}^{2} \frac{1}{2 \sigma_{1}^{2}}+2 x_{1} x_{2} \frac{w_{1}}{2 \sigma_{1}^{2}}-x_{3}^{2} \frac{1}{2 \sigma_{3}^{2}}+2 x_{3} x_{2} \frac{w_{3}}{2 \sigma_{3}^{2}}\right) \\
& =\frac{1}{Z} \exp \left(-\frac{1}{2}\left[\begin{array}{lll}
x_{1} & x_{2} & x_{3}
\end{array}\right]\left[\begin{array}{ccc}
\frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} & 0 \\
-\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}+\frac{w_{3}^{2}}{\sigma_{3}^{2}} & -\frac{w_{3}}{\sigma_{3}^{2}} \\
0 & -\frac{w_{3}}{\sigma_{3}^{2}} & \frac{1}{\sigma_{3}^{2}}
\end{array}\right]\left[\begin{array}{l}
x_{1} \\
x_{2} \\
x_{3}
\end{array}\right]\right)
\end{aligned}
\]
由此得到协方差矩阵的逆,即信息矩阵:
\[\boldsymbol{\Lambda}=\boldsymbol{\Sigma}^{-1}=\left[\begin{array}{ccc}
\frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} & 0 \\
-\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}+\frac{w_{3}^{2}}{\sigma_{3}^{2}} & -\frac{w_{3}}{\sigma_{3}^{2}} \\
0 & -\frac{w_{3}^{2}}{\sigma_{3}^{2}} & \frac{1}{\sigma_{3}^{2}}
\end{array}\right]
\]
注意:信息矩阵中有两个元素为 \(0\) ,它有什么具体含义呢? 协方差逆矩阵中如果坐标为 \((i, j)\) 的元素为 \(0\) , 表示元素 \(i\) 和 \(j\) 关于其他变量条件独立,上面的例子中意味着变量 \(x_{1}\) 和 \(x_{3}\) 关于 \(x_{2}\) 条件独立(在\(x_2\)确定的条件下,\(x_1,x_3\)相互独立)。
假设室内温度和室外温度正相关 \(\left(w_{i}>0\right)\)
- 协方差中非对角元素 \(\Sigma_{i j}>0\) 表示两变量是正相关。
- 信息矩阵中非对角元素为负数, 甚至为 0 。 \(\Lambda_{12}<0\) 表示在变量 \(x_{3}\) 发生的条件下, 元素 \(x_{1}\) 和 \(x_{2}\) 正相关。
2.3 Toy Example Two
比如特征三角化,两个相机 pose 得到特征三维坐标:
其三个变量之间的关系可以抽象成:
\[x_2=w_1x_1+w_3x_3+v_2
\]
同理,根据协方差矩阵的定义,可以得到协方差矩阵:
\[\boldsymbol{\Sigma}=\left[\begin{array}{ccc}
\sigma_{1}^{2} & w_{1} \sigma_{1}^{2} & 0 \\
w_{1} \sigma_{1}^{2} & \sigma_{2}^{2}+w_{1}^{2} \sigma_{1}^{2}+w_{3}^{2} \sigma_{3}^{2} & w_{3} \sigma_{3}^{2} \\
0 & w_{3} \sigma_{3}^{2} & \sigma_{3}^{2}
\end{array}\right]
\]
协方差矩阵中非对角元素为 0 表示变量之间没有相关性。这是否意味着信息矩阵中也会为 0 呢?
按照例子 1 中的方式,求取协方差矩阵的逆:
\[\begin{array}{l}
p\left(x_{1}, x_{2}, x_{3}\right)=p\left(x_{1}\right) p\left(x_{3}\right) p\left(x_{2} \mid x_{1}, x_{3}\right) \\
\quad=\frac{1}{Z_{1}} \exp \left(-\frac{x_{1}^{2}}{2 \sigma_{1}^{2}}\right) \frac{1}{Z_{3}} \exp \left(-\frac{x_{3}^{2}}{2 \sigma_{3}^{2}}\right) \frac{1}{Z_{2}} \exp \left(-\frac{\left(x_{2}-w_{1} x_{1}-w_{3} x_{3}\right)^{2}}{2 \sigma_{2}^{2}}\right)
\end{array}
\]
将变量整成向量形式:
\[\begin{aligned}
p\left(x_{1}, x_{2}, x_{3}\right) & =\frac{1}{Z} \exp \left(-\frac{x_{1}^{2}}{2 \sigma_{1}^{2}}-\frac{x_{3}^{2}}{2 \sigma_{3}^{2}}-\frac{\left(x_{2}-w_{1} x_{1}-w_{3} x_{3}\right)^{2}}{2 \sigma_{2}^{2}}\right) \\
& =\frac{1}{Z} \exp \left(-\frac{1}{2}\left[\begin{array}{lll}
x_{1} & x_{2} & x_{3}
\end{array}\right]\left[\begin{array}{ccc}
\frac{1}{\sigma_{1}^{2}}+\frac{w_{1}^{2}}{\sigma_{2}^{2}} & -\frac{w_{1}}{\sigma_{2}^{2}} & \frac{w_{1} w_{3}}{\sigma_{2}^{2}} \\
-\frac{w_{1}}{\sigma_{2}^{2}} & \frac{1}{\sigma_{2}^{2}} & -\frac{w_{3}}{\sigma_{2}^{2}} \\
\frac{w_{1} w_{3}}{\sigma_{2}^{2}} & -\frac{w_{3}}{\sigma_{2}^{2}} & \frac{1}{\sigma_{3}^{2}}+\frac{w_{3}^{2}}{\sigma_{2}^{2}}
\end{array}\right]\left[\begin{array}{l}
x_{1} \\
x_{2} \\
x_{3}
\end{array}\right]\right)
\end{aligned}
\]
从上面推导出的信息矩阵来看,
- 虽然 \(x_1\) 和 \(x_3\) 不相关,但是不说明他们的信息矩阵对应元素 \(\Lambda_{13}\)为 0。
- 恰恰信息矩阵中 \(\Lambda_{13}>0\), 表示的是在变量 \(x_2\) 发生的条件下,变量 \(x_1\) , \(x_3\) 成负相关。
- 对应上面的例子即 \(x_2\) 为常数,如果 \(x_1\) 大,则 \(x_3\) 小。
疑问:如果我们移除变量,信息矩阵或协方差矩阵如何变化呢?
协方差如何变化?
利用协方差的计算公式可知,\(x_1 , x_2\) 计算协方差时跟 \(x_3\),并无关系,所以就能得到去除 \(x_3\) 后的协方差矩阵:
\[\boldsymbol{\Sigma}_{2}=\left[\begin{array}{cc}
w_{1}^{2} \sigma_{2}^{2}+\sigma_{1}^{2} & w_{1} \sigma_{2}^{2} \\
w_{1} \sigma_{2}^{2} & \sigma_{2}^{2}
\end{array}\right]
\]
信息矩阵如何变化?
同样,我们只需要把信息矩阵中 \(x_3\) 对应的部分,也就是\(\sigma_3\)对应的部分去掉就可以:
\[\boldsymbol{\Sigma}_{2}^{-1}=\left[\begin{array}{cc}
\frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} \\
-\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}
\end{array}\right]
\]
我们再来和原先的信息矩阵对比一下:
\[\boldsymbol{\Sigma}_{1}^{-1}=\left[\begin{array}{ccc}
\frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} & 0 \\
-\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}+\frac{w_{3}^{2}}{\sigma_{3}^{2}} & -\frac{w_{3}}{\sigma_{3}^{2}} \\
0 & -\frac{w_{3}^{2}}{\sigma_{3}^{2}} & \frac{1}{\sigma_{3}^{2}}
\end{array}\right]
\]
实际操作过程中通常是引入 marginalization (边缘化) 和 Schur’s complement (舒尔补) 来解决这个问题。
3. 舒尔补应用
3.1 舒尔补定义
给定任意的矩阵块 \(M\) , 如下所示:
\[\mathbf{M}=\left[\begin{array}{ll}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]
\]
- 如果, 矩阵块 \(\mathbf{D}\) 是可逆的, 则 \(\mathbf{A}-\mathbf{B D}^{-1} \mathbf{C}\) 称之为 \(\mathbf{D}\) 关于 \(\mathrm{M}\) 的舒尔补。
- 如果, 矩阵块 \(\mathbf{A}\) 是可逆的, 则 \(\mathbf{D}-\mathbf{C A}^{-1} \mathbf{B}\) 称之为 \(\mathbf{A}\) 关于 \(\mathbf{M}\) 的舒尔补。
将 \(\mathbf{M}\) 矩阵变成上三角或者下三角形过程中,都会遇到舒尔补:
\[\begin{array}{l}
{\left[\begin{array}{cc}
\mathbf{I} & \mathbf{0} \\
-\mathbf{C A}^{-1} & \mathbf{I}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]=\left[\begin{array}{cc}
\mathbf{A} & \mathbf{B} \\
\mathbf{0} & \Delta_{\mathbf{A}}
\end{array}\right]} \\
{\left[\begin{array}{cc}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]=\left[\begin{array}{cc}
\mathbf{A} & 0 \\
\mathbf{C} & \Delta_{\mathbf{A}}
\end{array}\right]}
\end{array}
\]
其中: \(\Delta_{\mathbf{A}}=\mathbf{D}-\mathbf{C A}^{-1} \mathbf{B}\) 。联合起来,将 \(\mathbf{M}\) 变形成对角形:
\[\left[\begin{array}{cc}
\mathbf{I} & \mathbf{0} \\
-\mathbf{C A}^{-1} & \mathbf{I}
\end{array}\right]\left[\begin{array}{ll}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]=\left[\begin{array}{cc}
\mathbf{A} & \mathbf{0} \\
\mathbf{0} & \Delta_{\mathbf{A}}
\end{array}\right]
\]
反过来,我们又能从对角形恢复成矩阵 \(\mathbf{M}\) :
\[\left[\begin{array}{cc}
\mathbf{I} & \mathbf{0} \\
\mathbf{C A}^{-1} & \mathbf{I}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{A} & \mathbf{0} \\
\mathbf{0} & \Delta_{\mathbf{A}}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{I} & \mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]=\left[\begin{array}{cc}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]
\]
使用舒尔补分解可快速求解矩阵 \(\mathbf{M}\) 的逆
矩阵 \(\mathbf{M}\) 可写成:
\[\left[\begin{array}{cc}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]=\left[\begin{array}{cc}
\mathbf{I} & \mathbf{0} \\
\mathbf{C A}^{-1} & \mathbf{I}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{A} & \mathbf{0} \\
\mathbf{0} & \Delta_{\mathbf{A}}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{I} & \mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]
\]
由此可得矩阵 \(\mathbf{M}\) 的逆:
\[\left[\begin{array}{cc}
\mathbf{A} & \mathbf{B} \\
\mathbf{C} & \mathbf{D}
\end{array}\right]^{-1}=\left[\begin{array}{cc}
\mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{A}^{-1} & \mathbf{0} \\
\mathbf{0} & \Delta_{\mathbf{A}}^{-1}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{I} & \mathbf{0} \\
-\mathbf{C A}^{-1} & \mathbf{I}
\end{array}\right]
\]
因为:
\[\left[\begin{array}{cc}
\mathbf{I} & -\mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]\left[\begin{array}{cc}
\mathbf{I} & \mathbf{A}^{-1} \mathbf{B} \\
\mathbf{0} & \mathbf{I}
\end{array}\right]=\mathbf{I}
\]
3.2 舒尔补应用于多元高斯分布
假设多元变量 \(\mathrm{x}\) 服从零均值高斯分布, 且由两部分组成: \(\mathbf{x}=\left[\begin{array}{l}a \\ b\end{array}\right]\) , 变量之间构成的协方差矩阵为:
\[\mathbf{K}=\left[\begin{array}{cc}
A & C^{\top} \\
C & D
\end{array}\right]
\]
其中 $A=\operatorname{cov}(a, a), D=\operatorname{cov}(b, b), C=\operatorname{cov}(a, b) $. 由此变量 \(\mathbf{x}\) 的概率分布为:
\[P(a, b)=P(a) P(b \mid a) \propto \exp \left(-\frac{1}{2}\left[\begin{array}{l}
a \\
b
\end{array}\right]^{\top}\left[\begin{array}{cc}
A & C^{\top} \\
C & D
\end{array}\right]^{-1}\left[\begin{array}{l}
a \\
b
\end{array}\right]\right)
\]
利用舒尔补快速求逆的公式可得:
\[\begin{array}{l}
P(a, b) \\
\propto \exp \left(-\frac{1}{2}\left[\begin{array}{l}
a \\
b
\end{array}\right]^{\top}\left[\begin{array}{cc}
A & C^{\top} \\
C & D
\end{array}\right]^{-1}\left[\begin{array}{l}
a \\
b
\end{array}\right]\right) \\
\propto \exp \left(-\frac{1}{2}\left[\begin{array}{l}
a \\
b
\end{array}\right]^{\top}\left[\begin{array}{cc}
I & -A^{-1} C^{\top} \\
0 & I
\end{array}\right]\left[\begin{array}{cc}
A^{-1} & 0 \\
0 & \Delta_{\mathrm{A}}^{-1}
\end{array}\right]\left[\begin{array}{cc}
I & 0 \\
-C A^{-1} & I
\end{array}\right]\left[\begin{array}{l}
a \\
b
\end{array}\right]\right) \\
\propto \exp \left(-\frac{1}{2}\left[a^{\top}\left(b-C A^{-1} a\right)^{\top}\right]\left[\begin{array}{cc}
A^{-1} & 0 \\
0 & \Delta_{\mathbf{A}}^{-1}
\end{array}\right]\left[\begin{array}{c}
a \\
-
\end{array}\right]\right) \\
\propto \exp \left(-\frac{1}{2}\left(a^{\top} A^{-1} a\right)+\left(b-C A^{-1} a\right)^{\top} \Delta_{\mathbf{A}}^{-1}\left(b-C A^{-1} a\right)\right) \\
\propto \underbrace{\exp \left(-\frac{1}{2} a^{\top} A^{-1} a\right)}_{p(a)} \underbrace{\exp \left(-\frac{1}{2}\left(b-C A^{-1} a\right)^{\top} \Delta_{\mathbf{A}}^{-1}\left(b-C A^{-1} a\right)\right)}_{p(b \mid a)}
\end{array}
\]
这意味着我们能从多元高斯分布 \(P(a,b)\) 中分解得到边际概率 \(p(a)\) 和条件概率 \(p(b|a)\)。
\[\begin{array}{l}
P(a)=\int_{b} P(a, b) \\
P(a) \propto \exp \left(-\frac{1}{2} a^{\top} A^{-1} a\right) \sim \mathcal{N}(0, A)
\end{array}
\]
启示:边际概率的协方差就是从联合分布中取对应的矩阵块就行了。
- \(\mathrm{P}(\mathrm{b} \mid \mathrm{a})\) 的启示
\[P(b \mid a) \propto \exp \left(-\frac{1}{2}\left(b-C A^{-1} a\right)^{\top} \Delta_{\mathbf{A}}^{-1}\left(b-C A^{-1} a\right)\right)
\]
启示: \(P(b \mid a) \sim \mathcal{N}\left(C A^{-1} a, \Delta_{A}\right)\) 。协方差变为 \(a\) 对应的舒尔补, 均值也变了。
3.3 关于 P(a), P(b|a) 的信息矩阵
为什么要讨论 \(P (a), P (b|a)\) 的信息矩阵?因为基于优化的 SLAM 问题中,我们往往直接操作的是信息矩阵,而不是协方差矩阵。所以,有必要知道边际概率,条件概率的信息矩阵是何形式。
-
\(P(a), P(b|a)\)的信息矩阵,假设我们已知信息矩阵
\[\left[\begin{array}{cc}
A & C^{\top} \\
C & D
\end{array}\right]^{-1}=\left[\begin{array}{cc}
\Lambda_{a a} & \Lambda_{a b} \\
\Lambda_{b a} & \Lambda_{b b}
\end{array}\right]
\]
另外, 由舒尔补快速求逆的公式可知, 协方差矩阵各块和信息矩阵之间有:
\[\left[\begin{array}{cc}
A & C^{\top} \\
C & D
\end{array}\right]^{-1}=\left[\begin{array}{cc}
A^{-1}+A^{-1} C^{\top} \Delta_{\mathrm{A}}^{-1} C A^{-1} & -A^{-1} C^{\top} \Delta_{\mathrm{A}}^{-1} \\
-\Delta_{\mathrm{A}}^{-1} C A^{-1} & \Delta_{\mathrm{A}}^{-1}
\end{array}\right] \triangleq\left[\begin{array}{cc}
\Lambda_{a a} & \Lambda_{a b} \\
\Lambda_{b a} & \Lambda_{b b}
\end{array}\right]
\]
-
\(P(a), P(b / a)\) 的信息矩阵
由条件概率 \(P(b \mid a)\) 的协方差为 \(\Delta_{A}\) 以及上式,易得其信息矩阵为:
\[\Delta_{A}^{-1}=\Lambda_{b b}
\]
由边际概率 \(P(a)\) 的协方差为 \(A\) 以及上式得其信息矩阵为:
\[A^{-1}=\Lambda_{a a}-\Lambda_{a b} \Lambda_{b b}^{-1} \Lambda_{b a}
\]
回顾样例1
从联合分布 \(P\left(x_{1}, x_{2}, x_{3}\right)\) 中 marg 掉变量 \(x_{3}\) , 即 \(P\left(x_{1}, x_{2}\right)\) 对应的信息矩阵可以用上式得到。
\[\begin{aligned}
\mathbf{K}_{2}^{-1} & =\Lambda_{a a}-\Lambda_{a b} \Lambda_{b b}^{-1} \Lambda_{b a} \\
& =\Lambda_{a a}-\left[\begin{array}{c}
0 \\
-\frac{w_{3}}{\sigma_{3}^{2}}
\end{array}\right] \sigma_{3}^{2}\left[\begin{array}{ll}
0 & -\frac{w_{3}}{\sigma_{3}^{2}}
\end{array}\right] \\
& =\Lambda_{a a}-\left[\begin{array}{cc}
0 & 0 \\
0 & \frac{w_{3}}{\sigma_{3}^{2}}
\end{array}\right]=\left[\begin{array}{cc}
\frac{1}{\sigma_{1}^{2}} & -\frac{w_{1}}{\sigma_{1}^{2}} \\
-\frac{w_{1}}{\sigma_{1}^{2}} & \frac{w_{1}^{2}}{\sigma_{1}^{2}}+\frac{1}{\sigma_{2}^{2}}
\end{array}\right]
\end{aligned}
\]
边际概率对于协方差矩阵的操作是很容易的,但不好操作信息矩阵。条件概率恰好相反,对于信息矩阵容易操作,不好操作协方差矩阵。对于非零均值的高斯分布,表格总结如下
\[P(\boldsymbol{a}, \boldsymbol{b})=\mathcal{N}\left(\left[\begin{array}{c}
\boldsymbol{\mu}_{a} \\
\boldsymbol{\mu}_{b}
\end{array}\right],\left[\begin{array}{ll}
\boldsymbol{\Sigma}_{a a} & \boldsymbol{\Sigma}_{a b} \\
\boldsymbol{\Sigma}_{b a} & \boldsymbol{\Sigma}_{b b}
\end{array}\right]\right)=\mathcal{N}^{-1}\left(\left[\begin{array}{c}
\boldsymbol{\eta}_{a} \\
\boldsymbol{\eta}_{b}
\end{array}\right],\left[\begin{array}{cc}
\boldsymbol{\Lambda}_{a a} & \boldsymbol{\Lambda}_{a a} \\
\boldsymbol{\Lambda}_{b a} & \boldsymbol{\Lambda}_{b b}
\end{array}\right]\right)
\]
Ref
- Matthew R Walter, Ryan M Eustice, and John J Leonard. “Exactly sparse extended
information filters for feature-based SLAM”. In: The International Journal of Robotics Research 26.4 (2007)
- Huang. Conditional and marginal distributions of a multivariate Gaussian.
- David Mackay. “The humble Gaussian distribution”. In: (2006).