理解多维高斯分布

前言

在数理统计和机器学习中，经常用到高斯分布，这里根据网上的资源和理解，对多维高斯分布做一个小总结。

如有谬误，请联系指正。转载请注明出处。

联系方式：
e-mail: FesianXu@163.com
QQ: 973926198
github: https://github.com/FesianXu

标准的一维高斯分布是0均值和单位方差的，数学形式如(1)：

\begin{matrix} (1) & p (x) = \frac{1}{\sqrt{2 π}} e x p (- \frac{x^{2}}{2}) \end{matrix}

为了扩展成一般的一维高斯分布，我们引入一个线性变换

x := A (x - μ)

，结合(1)，有：

\begin{matrix} (2) & \begin{aligned} (5) & p (x) & = \frac{| A |}{\sqrt{2 π}} e x p (- \frac{A^{2} (x - μ)^{2}}{2}) \end{aligned} \end{matrix}

令

σ = 1 / A

，式(2)变为:

\begin{matrix} (3) & p (x) = \frac{1}{σ \sqrt{2 π}} e x p (- \frac{(x - μ)^{2}}{2 σ^{2}}) \end{matrix}

从这里可以看出

A

和

σ

存在关系。在系数前乘上

| A |

是为了整个分布的积分为1。这里的

| \cdot |

表示绝对值，在多变量下，则表示行列式。

在一维高斯分布上，通过调整均值 $μ$ 和方差 $σ^{2}$ 可以调整分布的形状，使得其向左右平移，或者拉伸其”顶峰”。

多维高斯分布其变量为 $n$ 维变量，每个变量之间可能会存在关系，为了描述这种关系，我们引入了协方差矩阵 $Σ$ ，其大小为 $n \times n$ ，其中每一个元素为:

\begin{matrix} (4) & \begin{aligned} (2) & Σ_{i, j} & = c o n v (X_{i}, X_{j}) \\ (3) & = E (X_{i} X_{j}) - E (X_{i}) E (E_{j}) \end{aligned} \end{matrix}

我们首先看看标准二维高斯分布的数学表达式(5)，因为是标准二维高斯分布，所以每个变量之间是独立的:

\begin{matrix} (5) & p (x, y) = p (x) p (y) = \frac{1}{2 π} e x p (- \frac{x^{2} + y^{2}}{2}) \end{matrix}

为了向量化公式，用向量

v = [x y]^{T}

，有：

\begin{matrix} (6) & p (v) = \frac{1}{2 π} e x p (- \frac{1}{2} v^{T} v) \end{matrix}

这个时候，用

v = A (x - μ)

，其中的

A

为

v

中每个分量的线性组合系数，也就是说

A

表示了每个变量的线性关系。有：

\begin{matrix} (7) & p (v) = \frac{| A |}{2 π} e x p (- \frac{1}{2} (x - μ)^{T} A^{T} A (x - μ)) \end{matrix}

用

Σ = (A^{T} A)^{- 1}

表示其协方差，其中

| A |

为行列式，有：

\begin{matrix} (8) & p (v) = \frac{1}{2 π | Σ |^{1 / 2}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)) \end{matrix}

当维度大于2时，情形类似，

n

维的高斯分布公式为：

\begin{matrix} (9) & p (v) = \frac{1}{(2 π)^{n / 2} | Σ |^{1 / 2}} e x p (- \frac{1}{2} (x - μ)^{T} Σ^{- 1} (x - μ)) v \in R^{n} \end{matrix}

以上三个图形的期望都为： $μ = [0, 0]^{T}$ ，最左端图形的协方差 $Σ = I$ ，中间的 $Σ = 0.6 I$ ，最右端的 $Σ = 2 I$ ，我们可以看出：当变小时，图像变得更加“瘦长”，而当增大时，图像变得更加“扁平”。

posted @ 2018-05-16 16:40 FesianXu 阅读(402) 评论(0) 收藏举报

刷新页面返回顶部