期望—方差—协方差—协方差矩阵—相关系数

1 样本均值

  设 $X_{1}, X_{2}, \cdots, X_{n}$  为总体 $X$  的样本,样本容量为 $n$ , 则样本均值为

    $\bar{X}=\frac{1}{n} \sum \limits _{i=1}^{n} X_{i}$

  用样本均值 $\bar{X}$  来估计总体的期望 $ \mu$,$\bar{X}$ 是围绕 $ \mu$ 左右波动的,即多次采样计算出来的统计量 $ \bar{X}$ 有的落在 $ \mu$ 左边,有的落在 $ \mu$ 右边,由于 $ \bar{X}$ 落在 $ \mu$ 左右两侧的情况是均匀的,即 $ E(\bar{X})=\mu$,所以 $ \bar{X}$ 就是 $ \mu$ 的无偏估计。

  样本均值能够保持比较好的无偏性是因为它的计算过程本质还是一个线性过程,这个就是无偏。

2 期望

离散型

  • 如果随机变量只取得有限个值或无穷能按一定次序一一列出,其值域为一个或若干个有限或无限区间,这样的随机变量称为离散型随机变量。
  • 离散型随机变量的一切可能的取值 $x_{i}$ 与对应的概率 $p\left(x_{i}\right)$ 乘积之和称为该离散型随机变量的数学期望 (若该求和绝对收敛),记为 $E(x) $。 它是简单算术平均的一种推广,类似加权平均。

  离散型随机变量 $X$ 的取值为 $ X_{1}, X_{2}, X_{3}, \ldots, X_{n}$,$p\left(X_{1}\right), p\left(X_{2}\right), p\left(X_{3}\right), \ldots, p\left(X_{n}\right) $  为 $ X$ 对应取值的概率, 可理解为数据 $ X_{1}, X_{2}, X_{3}, \ldots, X_{n}$ 出现的频率 $ f\left(X_{i}\right) $, 则:

    $E(X)=X_{1} * p\left(X_{1}\right)+X_{2} * p\left(X_{2}\right)+\ldots+X_{n} * p\left(X_{n}\right)$

    $\quad \quad \quad=X_{1} * f\left(X_{1}\right)+X_{2} * f\left(X_{2}\right)+\ldots+X_{n} * f\left(X_{n}\right)$

    $E(X)=\sum \limits _{k=1}^{\infty} x_{k} p_{k}$

  离散型随机变量函数的数学期望:

  • 设随机变量 $Y$  是 $X$  的函数, 即 $Y=g(X)$,则 $Y$  的数学期望为

    $E(Y)=E(g(X))=\sum g\left(x_{k}\right) p_{k}, k=1,2,3,4 \ldots$

  • 设随机变量 $Z$ 是 $X$ 和 $Y$ 的函数, 则 $Z=g(X, Y)$ ,则 $Z$ 的数学期望为

    $E(Z)=E(g(X, Y))=\sum g\left(x_{i}, y_{j}\right) p_{i j}, i, j=1,2,3,4 \ldots$

连续型

  设连续性随机变量 $X$ 的概率密度函数为 $f(x)$ , 若积分绝对收敛,则称积分的值 $\int_{-\infty}^{\infty} x f(x) d x$ 为随机变量的数学期望, 记为 $\mathrm{E}(\mathrm{X})$。

    $E(X)=\int_{-\infty}^{\infty} x f(x) d x$

  若随机变量 $X$ 的分布函数 $F(x)$ 可表示成一个非负可积函数 $f(x)$ 的积分,则称 $X$ 为连续性随机变量, $f(x)$ 称为 $X$ 的概率密度函数 (分布密度函数)。数学期望 $ E(X)$ 完全由随机变量 $X$ 的概率分布所确定。若 $X$ 服从某一分布, 也称 $ E(X)$ 是这一分布的数学期望。

定理

  若随机变量 $Y$ 符合函数 $Y=g(x)$ ,且 $\int_{-\infty}^{\infty} g(x) f(x) d x$ 绝对收敛, 则有: 

    $E(Y)=E(g(X))=\int_{-\infty}^{\infty} g(x) f(x) d x$

  该定理的意义在于: 我们求 $E(Y) $时不需要算出 $Y$ 的分布律或者概率分布, 只要利用 $X$ 的分布律或概率密度即可。
  上述定理还可以推广到两个或以上随机变量的函数情况。

  连续型随机变量函数的数学期望:

  • 设随机变量 $Y$ 是 $X$ 的函数, 即 $Y=g(X)$ , 则 $Y$ 的数学期望为

    $E(Y)=E(g(X))=\int_{-\infty}^{+\infty} g(x) f(x) d x$

  • 设随机变量 $Z$ 是 $X$ 和 $Y$ 的函数, 即 $Z=g(X, Y)$ , 二维随机变量 $(X, Y)$ 的概率密度是 $f(X, Y)$ , 则 $Z$ 的数学期望为

    $E(Z)=E(g(X, Y))=\int_{-\infty}^{+\infty} \int_{-\infty}^{+\infty} g(x, y) f(x, y) d x d y$

性质

  $E(C)=C$  
  $E(C X)=C E(X)$  
  $E(X+Y)=E(X)+E(Y)$  
  当 $X$ 和 $Y$ 相互独立时, $ \quad E(X Y)=E(X) E(Y)$

3 方差 

  在统计描述中,方差用来计算每一个变量(观察值)与总体均数之间的差异。为避免出现离均差总和为零,离均差平方和受样本含量的影响,统计学采用平均离均差平方和来描述变量的变异程度。总体方差计算公式:

    $\sigma^{2}=\frac{\sum(X-\mu)^{2}}{N}$

  其中 $\sigma^{2}$ 为总体方差,$X$ 为变量,$\mu$ 为总体均值,$N$ 为总体例数。

  在概率分布中,设 $X$ 是一个离散型随机变量,若 $E \left((X-E(X))^{2}\right)$ 存在,则称 $E(X-E(X))^{2} )$ 为 $X$ 的方差,记为 $D(X)$,$\operatorname{Var}(X) $ 或 $D X$,其中 $E(X) $是 $X$ 的期望值, $X$ 是变量值 ,公式中的 $E$ 是期望值 expected value 的缩写,意为“随机变量值与其期望值之差的平方和"的期望值。离散型随机变量方差计算公式:

    $D(X)=E\left((X-E(X))^{2}\right)=E\left(X^{2}\right)-E^{2}(X)$

  当 $D(X)=E\left((X-E(X))^{2}\right)$ 称为变量 $X$ 的方差,而 $\sigma=\sqrt{D(x)}$ 称为标准差 (或均方差) 。 它与 $X$ 有相同的量纲。 标准差是用来衡量一组数据的离散程度的统计量。

  对于连续型随机变量 $ X$ , 若其定义域为 $ (a, b) $,概率密度函数为 $ f(x)$ , 连续型随机变量 $X $方差计算公式:

    $D(X)=(x-\mu)^{2} f(x) d x$

  方差刻画了随机变量的取值对于其数学期望的离散程度。 (标准差、方差越大, 离散程度越大)
  若 $X$ 的取值比较集中,则方差 $ D(X)$ 较小,若 $X$ 的取值比较散,则方差 $ D(X)$ 较大。
  因此, $ D(X) $ 是刻画 $ X$ 取值分散程度的一个量,它是衡量取值分散程度的一个尺度。

4 协方差

  协方差定义:在概率论和统计学中,协方差用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况,即当两个变量是相同的情况。
  期望值分别为 $E[X]$ 与 $E[Y]$ 的两个实随机变量 $X$ 与 $Y$ 之间的协方差 $Cov(X,Y)$ 定义为:

    $Cov(X,Y)=E[\ (X-E[X])(Y-E[Y])\ ]$

    $\quad \quad \quad \quad \quad=E[XY]-2E[Y]E[X]+E[X]E[Y] $

    $\quad \quad \quad \quad \quad=E[XY]-E[X]E[Y]  $

  其中$E[X]=\mu_x,E[Y]=\mu_y$,从直观上来看,协方差表示的是两个变量总体误差的期望。
性质:

  若两个随机变量 $X$ 和 $Y$ 相互独立,则 $E[(X-E(X))(Y-E(Y))]=0$,因而若上述数学期望不为零,则 $X$ 和 $Y$ 必不是相互独立的,亦即它们之间存在着一定的关系。
  协方差与方差关系:

    $D(X+Y)=D(X)+D(Y)+2Cov(X,Y)  $
    $D(X-Y)=D(X)+D(Y)-2Cov(X,Y)  $

  协方差与期望值关系:

    $Cov(X,Y)=E(XY)-E(X)E(Y) $

  协方差性质:

    1.  $Cov(X,Y)=Cov(Y,X) $
    2.  $Cov(aX,bY)=abCov(X,Y),(a,b是常数)$
    3.  $Cov(X_1+X_2,Y)=Cov(X_1,Y)+Cov(X_2,Y)  $
    4.  $Cov(X+a,Y+b)=Cov(X,Y)  $

  由协方差定义,可以看出 $Cov(X,X)=D(X),Cov(Y,Y)=D(Y)$ 。

5 协方差矩阵

  矩阵中的数据按行排列与按列排列求出的协方差矩阵是不同的,默认数据是按行排列。即每一行是一个observation(or sample),那么每一列就是一个随机变量。

    $X_{m \times n}=\begin{bmatrix}a_{11} & a_{12} & ... & a_{1n} \\a_{21} & a_{22} & ... & a_{3n} \\... & ... & ... & ... \\a_{m1} & a_{m2} & ... & a_{nn}\end{bmatrix}=[c_1,c_2,...,c_n]$

  协方差矩阵:

    $covMatrix=\frac{1}{m-1} \begin{bmatrix}cov(c_{1},c_{1}) & cov(c_{1},c_{2}) & ... & cov(c_{1},c_{n}) \\cov(c_{2},c_{1}) & cov(c_{2},c_{2}) & ... & cov(c_{2},c_{n}) \\... & ... & ... & ... \\cov(c_{n},c_{1}) & cov(c_{n},c_{2}) & ... & cov(c_{n},c_{n})\end{bmatrix}$

  协方差矩阵的维度等于随机变量的个数,即每一个 observation 的维度。在某些场合前边也会出现$\frac{1}{m}$,而不是 $\frac{1}{m-1}$ 。
  求解协方差矩阵的步骤
  例子:矩阵 $X$ 按行排列:

    $X= \begin{bmatrix} 1 & 2 & 3\\ 3 & 1 &1 \end{bmatrix}$

  求每个维度的平均值

    $\bar{c}=\begin{bmatrix} 2 & 1.5 &2 \end{bmatrix}= \begin{bmatrix} \bar{c_1} & \bar{c_2} & \bar{c_3} \end{bmatrix}$

  将 $X$ 的每一列减去平均值

    $X=\begin{bmatrix} -1 & 0.5 & 1\\ 1 & -0.5 & -1 \end{bmatrix}$

  其中:

    $x_{ij}=x_{ij}-\bar{c_j}$

  计算协方差矩阵

    $covMatrix=\frac{1}{m-1}X^TX=\frac{1}{2-1}\begin{bmatrix} 2 & -1 & -2\\ -1 & 0.5 & 1\\ -2 & 1 & 2 \end{bmatrix}$

6 相关系数

  协方差作为描述 $X$ 和 $Y$ 相关程度的量,在同一物理量纲之下有一定的作用,但同样的两个量采用不同的量纲使它们的协方差在数值上表现出很大的差异。为此引入 相关系数 概念:

  定义:

    $\rho _{xy}=\frac{Cov(X,Y)}{\sqrt{D(X)} \sqrt{D(Y)}}   $

  定义:若 $\rho _{xy}=0$,则称 $X$ 与 $Y$ 不线性相关。即 $\rho _{xy}=0$ 的充分必要条件是 $Cov(X,Y)=0$ ,亦即不相关和协方差为零是等价的。

 看完点个关注呗!!(总结不易)

$

posted @ 2021-10-17 11:06  图神经网络  阅读(1536)  评论(0编辑  收藏  举报
Live2D