数据分析的统计基础3

期望与方差

随机变量的期望

随机变量的期望的概念类似于加权平均,其所有的可能取值由他们的概率加权。

离散型随机变量的期望:如果\(X\)是频率函数为\(p(x)\)的离散型随机变量,且满足\(\sum \limits_{i}|x_I|p(x_i) < \infty\),则\(X\)的期望,记为\(E(X)\),是:

\[E(X) = \sum \limits_ix_ip(x_i) \]

如果和式发散,则期望无定义。\(E(X)\)也称为\(X\)的均值,通常记作\(\mu\)\(\mu_X\),将其视作频率函数的质量中心有助于我们理解\(X\)的期望。

  • 几何随机变量的期望:\(E(X) = \frac{1}{p}\)

    推导:\(X\)是服从几何分布的随机变量,所以\(P(X=k) = (1-p)^{k-1}p\),则

\[E(X) = \sum \limits_{k=1}^{\infty}k(1-p)^{k-1}p=p\sum \limits_{k=1}^{\infty}k(1-p)^{k-1} \]

\(1-p=q\),因为\(kq^{k-1}=\frac{d}{dq}q^k\),交换求和和微分运算的顺序,得到:

\[E(X) = p\frac{d}{dq}\sum \limits_{k=1}^{\infty}q^k=p\frac{d}{dq}\frac{q}{1-q}=\frac{p}{(1-q)^2}=\frac{1}{p} \]

  • 泊松随机变量的期望:\(E(X) = \lambda\)

    推导:

    \[E(X) = \sum \limits_{k=0}^{\infty}\frac{k\lambda^k}{k!}e^{-\lambda}=\lambda e^{-\lambda}\sum \limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{\lambda}\sum \limits_{j=0}^{\infty}\frac{\lambda^j}{j!} \]

    因为\(\sum \limits_{j=0}^{\infty} (\lambda^j/j!)=e^\lambda\),所以得\(E(X) = \lambda\)。因此,泊松分布的参数\(\lambda\)可以解释为平均数。

连续型随机变量的期望:(连续型随机变量期望的定义是离散情形的直接推广:离散和被连续积分替代) 如果\(X\)是密度函数为\(f(x)\)的连续型随机变量,且满足\(\int |x|f(x)dx < \infty\),那么:

\[E(X) = \int _{-\infty}^{\infty}xf(x)dx \]

如果积分发散,那么期望无定义。\(E(X)\)同样视为密度质量的中心。

  • 伽马随机变量的期望:\(E(X)= \frac{\alpha}{\lambda}\)

    推导:如果\(X\)服从参数为\(\alpha\)\(\lambda\)的伽马密度,那么

    \[E(X)=\int_{0}^{\infty}\frac{\lambda^\alpha}{\Gamma(\alpha)}x^\alpha e^{-\lambda x}dx \]

    一旦我们意识到\(\lambda^{\alpha+1}x^{\alpha}e^{-\lambda x}/\Gamma(\alpha+1)\)是伽马密度,且全积分等于\(1\)。因此我们有:

    \[\int_{0}^{\infty}x^\alpha e^{-\lambda x}dx = \frac{\Gamma(\alpha + 1)}{\lambda ^{\alpha + 1}} \]

    由此可得

    \[E(X)= \frac{\lambda ^ \alpha}{\Gamma(\alpha)} \left[ \frac{\Gamma(\alpha + 1)}{\lambda ^ {\alpha + 1}}\right] \]

    最后利用\(\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)\),得到\(E(X)=\frac{\alpha}{\lambda}\)

对于指数密度,\(\alpha=1\),因此\(E(X)=1/\lambda\)。它的中位数是\(log2/\lambda\),均值和中位数都可以视作\(X\)的“代表值”,但它们所度量的分布性质是不同的。

  • 正态随机变量的期望:\(E(X) = \mu\)

    推导:

    \[E(X) = \frac{1}{\sigma \sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}}dx \]

    利用变量变换\(z=x-\mu\),则\(dz = d(x-\mu)\)。方程变为:

    \[E(X) = \frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^{\infty}ze^{-z^2/2\sigma^2}dz+\frac{\mu}{\sigma\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-z^2/2\sigma^2}dz \]

    上式第一个积分为奇函数,积分值为\(0\);第二个积分中,由于正态密度积分等于\(1\),所以积分值为\(\mu\)

期望值可以解释为长期平均。后续将证明当\(n \to \infty\)时,\(\bar X = \sum\limits_{i=1}^{n}X_i / n \to E(X)\)

马尔科夫不等式:如果随机变量\(X\)满足\(P(X \geq 0) = 1\),且\(E(X)\)存在,那么\(P(X \geq t) \leq E(X)/t\)

推导:(只证明离散情形,连续情形完全类似):

\[E(X) = \sum \limits_xxp(x)=\sum \limits_{x<t}xp(x) + \sum \limits_{x \geq t}xp(x) \]

因为\(X\)只取非负值,所以上式的每一项都是非负的。因此

\[E(X) \geq \sum \limits_{x\geq t}xp(x) \geq \sum \limits_{x\geq t}tp(x) =tP(X \geq t) \]

得证!

这个不等式告诉我们,\(X\)大于\(E(X)\)的概率是较小的。假设在定理中,我们令\(t = kE(X)\),根据结论,有\(P(X \geq kE(x)) \leq 1/k\),无论何种概率分布,这个结论对任何非负随机变量都成立。

随机变量函数的期望

假设\(Y=g(X)\)

  • 如果\(X\)是具有频率函数\(p(x)\)的离散随机变量,且满足\(\sum|g(x)|p(x) < \infty\),那么

    \[E(Y) = \sum \limits_x g(x)p(x) \]

  • 如果\(X\)是密度函数为\(f(x)\)的连续随机变量,且满足\(\int_{-\infty}^{\infty}|g(x)|f(x)dx < \infty\),那么

    \[E(Y) = \int_{-\infty}^{\infty}g(x)f(x)dx \]

证明略。

随机变量线性组合的期望

期望最有用的性质是它的线性运算。

如果\(Y=aX+b\),那么\(E(Y) = a E(X) + b\),更一般地,这个性质可以推广到随机变量的线性组合。

如果\(X_1,X_2,...,X_n\)是具有期望\(E(X_i)\)的联合分布随机变量,\(Y\)\(X_i\)的线性函数,\(Y = a + \sum \limits_{i=1}^{n}b_iX_i\),那么有:

\[E(Y) = a +\sum \limits_{i=1}^{n}b_iE(X_i) \]

  • 二项分布的期望:\(E(Y) = np\)

    推导:\(E(Y) = \sum \limits_{i=1}^{n} \binom{n}{k}p^k(1-p)^{n-k}\)

    和式的计算不是显而易见的。但我们可以将\(Y\)表示成伯努利随机变量\(X_i\)之和,其中根据第\(i\)次试验成功与否取值\(1\)\(0\)\(Y = \sum \limits_{i=1}^{n}X_i\),因为\(E(X_i)=0\times(1-p) + 1 \times p = p\),得\(E(Y) = np\)

方差和标准差

随机变量的期望是它的平均值,可以视作密度或者频率函数的中心。因此,期望有时称为位置参数(location parameter)。分布的中位数也是位置参数,且不一定等于均值。另一个常用参数是随机变量的标准差(standard deviation),它描述概率分布关于中心的发散程度,度量随机变量偏离期望的平均幅度。

如果\(X\)是具有期望\(E(X)\)的随机变量,只要下述期望存在,\(X\)的方差就是:

\[Var(X) = E\left\{ [X - E(X)]^2\right\} \]

\(X\)的标准差就是方差的平方根。

  • 如果\(X\)是频率函数为\(p(x)\)的离散随机变量,期望值\(\mu = E(X)\),根据定义有:

    \[Var(X) = \sum_i (x_i - \mu )^2p(x_i) \]

  • 如果\(X\)是密度函数为\(f(x)\)的连续随机变量,期望值\(\mu=E(X)\),那么:

    \[Var(X) = \int_{-\infty}^\infty(x-\mu)^2f(x)dx \]

方差通常记为\(\sigma^2\),标准差为\(\sigma\)。根据上面的定义,\(X\)的方差就是平均偏离其均值的平均值。方差的单位为随机变量的平方,标准差的单位与随机变量一致。

随机变量的方差在线性变换的条件下的转换方式比较简单。

如果\(Var(X)\)存在,\(Y=aX+b\),那么\(Var(Y) = b^2 Var(X)\)

推导:因为\(E(Y)=a + b E(X)\)

\[\begin{align*} Var(Y) &= E[(Y-E(Y))^2] =E\left\{[a+bX - (a + b E(X))]^2 \right\} \\ &=E\left\{ b^2[X-E(X)]^2\right\}=b^2E\left\{ [X-E(X)]^2\right\} = b^2 Var(X) \end{align*} \]

  • 伯努利分布的方差:\(Var(X) = (0-p)^2 \times (1-p) + (1-p) ^ 2 \times p = p(1-p)\),在\(p=1/2\)处取得最大值。

  • 正态分布的方差:正态分布的期望为\(E(X) = \mu\)

    \[Var(X) = E[(X-\mu)^2] = \frac{1}{\sigma \sqrt{2\pi}}\int_{-\infty}^{\infty}(x-\mu)^2exp\left[-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}\right]dx \]

    利用变量变换\(z = (x-\mu) / \sigma\),右边变为

    \[\frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{\infty}z^2e^{-z^2/2}dz \]

    再利用变量变换,令\(u= z^2/2\),将积分化简为伽马函数,得到\(Var(X) = \sigma^2\)
    方差的另一种计算方法:如果\(X\)的方差存在,它也也可以计算如下:

\[Var(X) = E(X^2) - [E(X)]^2 \]

推导:记\(E(X) = \mu\)

\[Var(X) = E[(X- \mu)^2]= E(X^2 - 2\mu X + \mu^2) \]

利用期望的线性性质,上式变为:

\[Var(X)=E(X^2)-2\mu E(X) +\mu^2=E(X^2) - \mu ^ 2 \]

切比雪夫不等式:(Chebyshev's inequality),方差和标准差刻画了随机变量可能取值的发散程度,切比雪夫不等式给出了量化的表述。令\(X\)是均值为\(\mu\),方差为\(\sigma^2\)的随机变量。对任意的\(t>0\),有:

\[P(|X-\mu|>t) \leq \frac{\sigma^2}{t^2} \]

证明 令\(Y = (X - \mu)^2\),那么\(E(Y) = \sigma^2\),由马尔科夫不等式有\(P(Y \geq t^2) \leq \frac{E(Y)}{t^2}\),即得证。

上式表名,如果\(\sigma^2\)非常小,就会有较高的概率保证\(X\)不会偏离\(\mu\)太远;对于另一种解释,我们可以设定\(t=k\sigma\),不等式变为:

\[P(|X-\mu| \geq k\sigma) \leq 1/k^2 \]

则有结论:

  • \(k=2\)时,在\((\mu - 2\sigma,\mu + 2 \sigma)\)范围内的概率为\(75\%\),范围外的概率不超过\(25\%\)

  • \(k=3\)时,在\((\mu - 3\sigma,\mu + 3 \sigma)\)范围内的概率为\(8/9\),范围外的概率不超过\(1/9\)

  • \(k=4\)时,在\((\mu - 4\sigma,\mu + 4\sigma)\)范围内的概率为\(15/16\),范围外的概率不超过\(1/16\)

  • \(k=10\)时,在\((\mu - 10\sigma,\mu + 10\sigma)\)范围内的概率为\(99/100\),范围外的概率不超过\(1/100\)

切比雪夫不等式有如下结论:如果\(Var(X)=0\),那么\(P(X=u)=1\)
证明:(反证法)。假设\(P(X=\mu)<1\)。那么对于某个\(\varepsilon > 0,P(|X-\mu| \geq \varepsilon) > 0\);然而,由切比雪夫不等式,对任意\(\varepsilon > 0\)

\[P(|X-\mu| \geq \varepsilon) = 0 \]

测量误差模型

\(X\)度量某个测量,用\(x_0\)记为测量的真实值,\(\beta\)表示系统误差,是一个常数,\(\varepsilon\)表示随机误差,\(\varepsilon\)是一个随机变量,具有\(E(\varepsilon) = 0\)\(Var(\varepsilon)=\sigma^2\),那么度量\(X\)的模型如下:

\[X = x_0 + \beta + \varepsilon \]

且有\(E(X)=x_0+\beta\)\(Var(X) = \sigma^2\)

\(\beta\)常称为测量过程中的偏倚(bias),影响误差大小的因素分别为偏倚bias和方差\(\sigma^2\)。完美的测量(基本不存在)具有\(\beta=0\)\(\sigma^2=0\)

测量误差的全部度量通常用均方误差(mean squared error)来表示,定义为:

\[MSE = E[(X - x_0)^2] \]

均方误差是\(X\)偏离\(x_0\)平方的期望,按照贡献程度可以将其分解成偏差和方差。

\(MSE = \sigma^2 + \beta^2\)

证明:\(E[(X-x_0)^2] = Var(X-x_0) + [E(X-x_0)]^2 = Var(X-x_0) + \beta^2 = \sigma^2 + \beta ^2\)

协方差和相关

随机变量的方差是其变异性的度量,两个随机变量的协方差(covariance)是它们联合变异性的度量,或是它们关联度的度量。

协方差:如果\(X\)\(Y\)是分别具有期望\(\mu_X\)\(\mu_Y\)的随机变量,只要下述期望存在,\(X\)\(Y\)的协方差是:

\[Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)] \]

协方差是\(X\)与其均值离差和\(Y\)与其均值离差的乘积平均值。如果两个随机变量的关联是正向的,也就是当\(X\)大于它的均值时,\(Y\)也倾向于大于它的均值,协方差是正的,当两个随机变量的关联是负向的,也就是\(X\)大于它的均值时,\(Y\)却小于它的均值,协方差是负的。

通过乘积展开和期望的线性性质,我们得到协方差的另一种表达形式:

\[\begin{align} Cov(X,Y) &= E(XY - X\mu_Y - Y\mu_X+\mu_X\mu_Y) \\ &=E(XY) - E(X) \mu_Y-E(Y) \mu X+ \mu X \mu Y \\ &=E(XY) - E(X)E(Y) \end{align} \]

特别地,如果\(X\)\(Y\)独立,那么\(E(XY)=E(X)E(Y)\)\(Cov(X,Y)=0\)

相关系数:correlation coefficient定义在协方差的基础上。如果\(X\)\(Y\)的方差和协方差都存在,且方差非\(0\),那么\(X\)\(Y\)的相关系数记为\(\rho\),定义如下:

\[\rho = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \]

注意,因为定义为比值形式,相关系数无量纲。利用之前介绍的方差和协方差的性质,如果\(X\)\(Y\)都进行线性变换,相关系数不会发生改变。因为相关系数不依赖于测量单位,因此在多数情况下,\(\rho\)要比协方差更易于度量相关联性。

经常使用如下的记号和关系式,\(X\)\(Y\)的标准差分别记为\(\sigma_X\)\(\sigma_Y\),它们的协方差记为\(\sigma_{XY}\),因此有

\[\rho = \frac{\sigma_{XY}}{\sigma_X\sigma_Y} \]

\[\sigma_{XY} = \rho \sigma_X \sigma_Y \]

\(-1 \leq \rho \leq 1\),进一步,\(\rho=\pm 1\)当且仅当\(P(Y=a+bX)=1\),其中\(a\)\(b\)为某个常数。

证明:因为随机变量的方差都是非负的,所以:

\[\begin{align} 0 &\leq Var(\frac{X}{\sigma_X} + \frac{Y}{\sigma_Y}) \\ &= Var(\frac{X}{\sigma_X}) + Var(\frac{Y}{\sigma_Y}) + 2Cov(\frac{X}{\sigma_X},\frac{Y}{\sigma_Y}) \\ &= \frac{Var(X)}{\sigma_X^2} + \frac{Var(Y)}{\sigma_Y^2} + \frac{2Cov(X,Y)}{\sigma_X\sigma_Y} \\ &= 2(1+\rho) \end{align} \]

由上式,我们得到\(\rho \geq -1\),类似地,根据\(Var(\frac{X}{\sigma_X} - \frac{Y}{\sigma_Y}) \geq 0\)可得\(\rho \leq 1\)

posted @ 2019-08-21 14:48  Evian_Jeff  阅读(537)  评论(0编辑  收藏  举报