高斯分布

什么是高斯分布与高斯分布的广泛性

高斯分布, Gaussian Distribution, 也叫自然分布或正态分布,Natural Distribution。
从它的名字--natural distribution中也可以看出它的广泛性:正常情况下, 你就应该是这个分布。
那么为什么到处都有它呢?概率论中的中心极限定理可以说明为什么:在客观实际中有许多随机变量, 它们是由大量的相互独立的随机因素的综合影响所形成的。而每个随机因素在总的影响中都是微小的。这些变量的分布往往可以用正态分布来逼近。 考虑到现实世界的复杂情况也就能理解自然分布的广泛性了。它最先由高斯发现在1809年发现。

单元高斯分布

这里的单元不是指一个单元,两个单元, 而是单变量的意思,single variet. 单变量正态分布的概率密度函数:\(\phi (x) = \frac {1}{\sqrt {2\pi}\sigma}e^{-\frac {(x-\mu)^2}{2\sigma^2}}\)

其中\(\mu, \sigma^2\)分别为\(x\)的期望与方差。知道这两个参数后, 这个正态分布可以表示为$ N(\mu, \sigma^2)$.

由一个特殊的积分:

\[ \int_{-\infty}^{+\infty} e^{-t^2}dt = \sqrt \pi$$. 令$t=\frac {x-\mu}{\sqrt 2 \sigma}$,$dt = \frac {1}{\sqrt 2 \sigma}dx$, 可以得到$$\int^{\infty}_{-\infty}\phi(x)dx = 1$$. 关于单元正态分布, 有两个常用的性质: * $\mu$ 决定密度函数图象的位置, $\sigma$ 决定它的形状:$\sigma$ 越大, 图象越胖。 * $3\sigma$ 规律: 正态分布中, 只有不到千分之二的元素分布在$[\mu-3\sigma,\mu+3\sigma]$之外, 为小概率事件, 基本不会发生。 # 多元高斯分布 多元高斯分布,即多变量高斯分布, Multivariet Gaussian Distribution. 样本值是一个多维列向量$X=(x_1, x_2, \dots, x_d)^T$, 每一个单独的元素都服从各自的正态分布。它的概率密度函数为: $$P(X) = \frac {1} {(2\pi)^{\frac 1d} |\Sigma|^\frac 12} e ^ {-\frac{(x-\mu)^T \Sigma^{-1}(x-\mu)}{2}}\]

\(\mu\) 在这里就不再是一个标量了, 而是一个\(d\)维列向量;\(\Sigma\)是样本的协方差矩阵, \(d\times d\). \(|\Sigma|\)\(\Sigma^{-1}\)分别是它的行列式值与逆矩阵。一个多元高斯分布可以看作一个标准向量\(\mu\)受到自然污染后的取值的分布

\(\Sigma\)的计算方式为:

  • 均值化处理:从所有样本向量中分别减去\(\mu\), 即 \(z = x - \mu\)
  • \(Z\) 为所有 \(z\) 组成的\(m\times d\)矩阵
  • \(\Sigma = Z^TZ\).

高斯分布的线性变换与投影

多个正态分布的线性组合可以形成新的线性分布。\(A\)\(d\times k\)矩阵,\(Y = A^TX\)通过对多元正态分的随机变量\(X\)进行线性变换得到一个新的正态分布随机变量\(Y = N (A\mu, A^T\Sigma A)\). 若$k =1 $, 即 \(p = A\) 为一个\(d\) 维列向量, \(Y = p^TX\)代表将\(X\)\(p\)所在的直线方向上进行投影。\(p^T\Sigma p\) 代表\(X\)在这个投影方向上的方差, 这个值越大, 代表原样本集在这个方向上分散的越开。这一点在PCA算法中会使用到。

posted @ 2016-05-08 14:55  宁静是一种习惯  阅读(4655)  评论(0编辑  收藏  举报