几个统计学的概念
统计基础概念
在多元变量分析中,我们考虑所有的 \(d\) 个数值型属性 \(X_1, \cdots, X_d\)。整个数据集是一个 \(n \times d\) 的矩阵,即(数据矩阵):
\[D =
\left[
\begin{array}{c|llll}
& X_1 & X_2 & \cdots & X_d \\
\hline
x_1^T & x_{11} & x_{12} & \cdots & x_{1d} \\
x_2^T & x_{21} & x_{22} & \cdots & x_{2d} \\
\vdots & \vdots & \vdots & \ddots & \vdots \\
x_n^T & x_{n1} & x_{n2} & \cdots & x_{nd} \\
\end{array}
\right]
\]
以上数据:
- 按照行来看,可以看作 \(d\) 维属性空间中的 \(n\) 个点或者向量
\( x_i = (x_{i_1}, \cdots, x_{id})^T \in {\Bbb R}^d \) - 按照列来看,可以看作 \(n\) 维属性空间中的 \(d\) 个点或者向量
\( X_j = (X_{j_1}, \cdots, X_{jd})^T \in {\Bbb R}^n \)
从概率的角度,\(d\) 个属性可以建模为一个向量随机变量 \(X = (X_1, X_2, \cdots, X_d)^T\),而点 \(x_i\) 可以看成从 \(X\) 中得到的随机样本,它们和 \(X\) 是独立同分布的。
均值
\[\begin{align}
\mu = E[X] = \left[
\begin{array}{c}
E[X_1] \\ E[X_2] \\ \vdots \\ E[X_d]
\end{array}
\right] = \left[
\begin{array}{c}
\mu_1 \\ \mu_2 \\ \vdots \\ \mu_d
\end{array}
\right] \tag{均值向量} \\
\hat{\mu} = \frac{1}{n} \sum_{i=1}^{n}x_i \tag {样本均值}
\end{align}
\]
协方差矩阵
\[\Sigma = E[(X - \mu)(X - \mu)^T]
\]
居中数据矩阵
\[Z = D - 1 \cdot \hat{\mu}^T
\]
样本协方差矩阵
\[\hat{\Sigma} = E[(X - \hat{\mu})(X - \hat{\mu})^T] = \frac{1}{n - 1}\; (Z^TZ)
\]
总方差
\[var(D) = tr(\Sigma)
\]
数据规范化
极差归一化
极差:\(\hat{r} = \max\{X_i\} - \min\{X_i\}\)
\(X_i^{'} = \frac{X_i - \min\{X_i\}}{\hat{r}}\)
标准差归一化
\[\hat{X} = \frac{X - \hat{\mu}}{\hat{\sigma}}
\]
高斯误差函数
\[erf(x) = \frac{2}{\sqrt{\pi}}\;\int_0^xe^{-t^2}{\rm d}t
\]
应用
一元正态分布
随机变量 \(X\) 服从正态分布,均值为 \(\mu\),方差为 \(\sigma^2\),其概率密度函数可以描述为:
\[f(x\,|\,\mu, \sigma^2) = \frac{1}{\sqrt{2\pi \sigma^2}} \exp\left\{-\frac{(x - \mu)^2}{2 \sigma^2}\right\}
\]
给定区间 \([a, b]\),在该区间上的正态分布的概率质量为:
\[P(a \leq x \leq b) = \int_a^b f(x\,|\,\mu, \sigma^2) {\rm d} x
\]
我们大都对于区间 \([\mu - k \sigma, \mu + k \sigma]\) 比较感兴趣:
\[P(\mu - k \sigma \leq x \leq \mu + k \sigma) = \int_{\mu - k \sigma}^{\mu + k \sigma} f(x\,|\,\mu, \sigma^2) {\rm d} x
\]
我们令 \(z = \frac{x - \mu}{\sigma}\),则上式可以化为:
\[\begin{align}
P(- k \leq z \leq k) &= \frac{1}{\sqrt{2\pi}} \int_{- k}^{k} e^ {- \frac{1}{2}{z^2}} {\rm d}z \\
&= \frac{2}{\sqrt{2\pi}} \int_{0}^{k} e^ {- \frac{1}{2}{z^2}} {\rm d}z \\
&= \frac{2}{\sqrt{\pi}} \int_{0}^{\frac{k}{\sqrt{2}}} e^{- t^2} {\rm d}t \\
&= erf(\frac{k}{\sqrt{2}})
\end{align}
\]
多元正态分布
若 \(X = (X_1, X_2, \cdots, X_d)\) 服从多元正态分布,均值为 \(\bf \mu\),协方差矩阵为 \(\bf \Sigma\),则其联合多元概率密度函数为:
\[f(x\,|\,\mu, \Sigma) = \frac{1}{\sqrt{2\pi}^d {\sqrt{|{\Sigma}|}}} \exp\left\{-\frac{(x - \mu)^T{\Sigma}^{-1}(x - \mu)}{2} \right\}
\]
马氏距离
\[(x - \mu)^T{\Sigma}^{-1}(x - \mu)
\]
探寻有趣之事!