数据分析的统计基础3

期望与方差

随机变量的期望

随机变量的期望的概念类似于加权平均，其所有的可能取值由他们的概率加权。

离散型随机变量的期望：如果\(X\)是频率函数为\(p(x)\)的离散型随机变量，且满足\(\sum \limits_{i}|x_I|p(x_i) < \infty\)，则\(X\)的期望，记为\(E(X)\)，是：

\[E(X) = \sum \limits_ix_ip(x_i) \]

如果和式发散，则期望无定义。\(E(X)\)也称为\(X\)的均值，通常记作\(\mu\)或\(\mu_X\)，将其视作频率函数的质量中心有助于我们理解\(X\)的期望。

几何随机变量的期望：\(E(X) = \frac{1}{p}\)

推导：\(X\)是服从几何分布的随机变量，所以\(P(X=k) = (1-p)^{k-1}p\)，则

\[E(X) = \sum \limits_{k=1}^{\infty}k(1-p)^{k-1}p=p\sum \limits_{k=1}^{\infty}k(1-p)^{k-1} \]

令\(1-p=q\)，因为\(kq^{k-1}=\frac{d}{dq}q^k\)，交换求和和微分运算的顺序，得到：

\[E(X) = p\frac{d}{dq}\sum \limits_{k=1}^{\infty}q^k=p\frac{d}{dq}\frac{q}{1-q}=\frac{p}{(1-q)^2}=\frac{1}{p} \]

泊松随机变量的期望：\(E(X) = \lambda\)

推导：

\[E(X) = \sum \limits_{k=0}^{\infty}\frac{k\lambda^k}{k!}e^{-\lambda}=\lambda e^{-\lambda}\sum \limits_{k=1}^{\infty}\frac{\lambda^{k-1}}{(k-1)!}=\lambda e^{\lambda}\sum \limits_{j=0}^{\infty}\frac{\lambda^j}{j!} \]
因为\(\sum \limits_{j=0}^{\infty} (\lambda^j/j!)=e^\lambda\)，所以得\(E(X) = \lambda\)。因此，泊松分布的参数\(\lambda\)可以解释为平均数。

连续型随机变量的期望：(连续型随机变量期望的定义是离散情形的直接推广：离散和被连续积分替代) 如果\(X\)是密度函数为\(f(x)\)的连续型随机变量，且满足\(\int |x|f(x)dx < \infty\)，那么：

\[E(X) = \int _{-\infty}^{\infty}xf(x)dx \]

如果积分发散，那么期望无定义。\(E(X)\)同样视为密度质量的中心。

伽马随机变量的期望：\(E(X)= \frac{\alpha}{\lambda}\)

推导：如果\(X\)服从参数为\(\alpha\)和\(\lambda\)的伽马密度，那么

\[E(X)=\int_{0}^{\infty}\frac{\lambda^\alpha}{\Gamma(\alpha)}x^\alpha e^{-\lambda x}dx \]
一旦我们意识到\(\lambda^{\alpha+1}x^{\alpha}e^{-\lambda x}/\Gamma(\alpha+1)\)是伽马密度，且全积分等于\(1\)。因此我们有：

\[\int_{0}^{\infty}x^\alpha e^{-\lambda x}dx = \frac{\Gamma(\alpha + 1)}{\lambda ^{\alpha + 1}} \]
由此可得

\[E(X)= \frac{\lambda ^ \alpha}{\Gamma(\alpha)} \left[ \frac{\Gamma(\alpha + 1)}{\lambda ^ {\alpha + 1}}\right] \]
最后利用\(\Gamma(\alpha + 1) = \alpha \Gamma(\alpha)\)，得到\(E(X)=\frac{\alpha}{\lambda}\)

对于指数密度，\(\alpha=1\)，因此\(E(X)=1/\lambda\)。它的中位数是\(log2/\lambda\)，均值和中位数都可以视作\(X\)的“代表值”，但它们所度量的分布性质是不同的。

正态随机变量的期望：\(E(X) = \mu\)

推导：

\[E(X) = \frac{1}{\sigma \sqrt{2\pi}}\int_{-\infty}^{\infty}xe^{-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}}dx \]
利用变量变换\(z=x-\mu\)，则\(dz = d(x-\mu)\)。方程变为：

\[E(X) = \frac{1}{\sigma\sqrt{2\pi}}\int_{-\infty}^{\infty}ze^{-z^2/2\sigma^2}dz+\frac{\mu}{\sigma\sqrt{2\pi}}\int_{-\infty}^{\infty}e^{-z^2/2\sigma^2}dz \]
上式第一个积分为奇函数，积分值为\(0\)；第二个积分中，由于正态密度积分等于\(1\)，所以积分值为\(\mu\)。

期望值可以解释为长期平均。后续将证明当\(n \to \infty\)时，\(\bar X = \sum\limits_{i=1}^{n}X_i / n \to E(X)\)

马尔科夫不等式：如果随机变量\(X\)满足\(P(X \geq 0) = 1\)，且\(E(X)\)存在，那么\(P(X \geq t) \leq E(X)/t\)

推导：(只证明离散情形，连续情形完全类似)：

\[E(X) = \sum \limits_xxp(x)=\sum \limits_{x<t}xp(x) + \sum \limits_{x \geq t}xp(x) \]

因为\(X\)只取非负值，所以上式的每一项都是非负的。因此

\[E(X) \geq \sum \limits_{x\geq t}xp(x) \geq \sum \limits_{x\geq t}tp(x) =tP(X \geq t) \]

得证！

这个不等式告诉我们，\(X\)大于\(E(X)\)的概率是较小的。假设在定理中，我们令\(t = kE(X)\)，根据结论，有\(P(X \geq kE(x)) \leq 1/k\)，无论何种概率分布，这个结论对任何非负随机变量都成立。

随机变量函数的期望

假设\(Y=g(X)\)。

如果\(X\)是具有频率函数\(p(x)\)的离散随机变量，且满足\(\sum|g(x)|p(x) < \infty\)，那么

\[E(Y) = \sum \limits_x g(x)p(x) \]
如果\(X\)是密度函数为\(f(x)\)的连续随机变量，且满足\(\int_{-\infty}^{\infty}|g(x)|f(x)dx < \infty\)，那么

\[E(Y) = \int_{-\infty}^{\infty}g(x)f(x)dx \]

证明略。

随机变量线性组合的期望

期望最有用的性质是它的线性运算。

如果\(Y=aX+b\)，那么\(E(Y) = a E(X) + b\)，更一般地，这个性质可以推广到随机变量的线性组合。

如果\(X_1,X_2,...,X_n\)是具有期望\(E(X_i)\)的联合分布随机变量，\(Y\)是\(X_i\)的线性函数，\(Y = a + \sum \limits_{i=1}^{n}b_iX_i\)，那么有：

\[E(Y) = a +\sum \limits_{i=1}^{n}b_iE(X_i) \]

二项分布的期望：\(E(Y) = np\)

推导：\(E(Y) = \sum \limits_{i=1}^{n} \binom{n}{k}p^k(1-p)^{n-k}\)

和式的计算不是显而易见的。但我们可以将\(Y\)表示成伯努利随机变量\(X_i\)之和，其中根据第\(i\)次试验成功与否取值\(1\)或\(0\)，\(Y = \sum \limits_{i=1}^{n}X_i\)，因为\(E(X_i)=0\times(1-p) + 1 \times p = p\)，得\(E(Y) = np\)。

方差和标准差

随机变量的期望是它的平均值，可以视作密度或者频率函数的中心。因此，期望有时称为位置参数(location parameter)。分布的中位数也是位置参数，且不一定等于均值。另一个常用参数是随机变量的标准差(standard deviation)，它描述概率分布关于中心的发散程度，度量随机变量偏离期望的平均幅度。

如果\(X\)是具有期望\(E(X)\)的随机变量，只要下述期望存在，\(X\)的方差就是:

\[Var(X) = E\left\{ [X - E(X)]^2\right\} \]

\(X\)的标准差就是方差的平方根。

如果\(X\)是频率函数为\(p(x)\)的离散随机变量，期望值\(\mu = E(X)\)，根据定义有：

\[Var(X) = \sum_i (x_i - \mu )^2p(x_i) \]
如果\(X\)是密度函数为\(f(x)\)的连续随机变量，期望值\(\mu=E(X)\)，那么：

\[Var(X) = \int_{-\infty}^\infty(x-\mu)^2f(x)dx \]

方差通常记为\(\sigma^2\)，标准差为\(\sigma\)。根据上面的定义，\(X\)的方差就是平均偏离其均值的平均值。方差的单位为随机变量的平方，标准差的单位与随机变量一致。

随机变量的方差在线性变换的条件下的转换方式比较简单。

如果\(Var(X)\)存在，\(Y=aX+b\)，那么\(Var(Y) = b^2 Var(X)\)

推导：因为\(E(Y)=a + b E(X)\)，

\[\begin{align*} Var(Y) &= E[(Y-E(Y))^2] =E\left\{[a+bX - (a + b E(X))]^2 \right\} \\ &=E\left\{ b^2[X-E(X)]^2\right\}=b^2E\left\{ [X-E(X)]^2\right\} = b^2 Var(X) \end{align*} \]

伯努利分布的方差：\(Var(X) = (0-p)^2 \times (1-p) + (1-p) ^ 2 \times p = p(1-p)\)，在\(p=1/2\)处取得最大值。
正态分布的方差：正态分布的期望为\(E(X) = \mu\)

\[Var(X) = E[(X-\mu)^2] = \frac{1}{\sigma \sqrt{2\pi}}\int_{-\infty}^{\infty}(x-\mu)^2exp\left[-\frac{1}{2}\frac{(x-\mu)^2}{\sigma^2}\right]dx \]
利用变量变换\(z = (x-\mu) / \sigma\)，右边变为

\[\frac{\sigma^2}{\sqrt{2\pi}}\int_{-\infty}^{\infty}z^2e^{-z^2/2}dz \]
再利用变量变换，令\(u= z^2/2\)，将积分化简为伽马函数，得到\(Var(X) = \sigma^2\)
方差的另一种计算方法：如果\(X\)的方差存在，它也也可以计算如下：

\[Var(X) = E(X^2) - [E(X)]^2 \]

推导：记\(E(X) = \mu\)。

\[Var(X) = E[(X- \mu)^2]= E(X^2 - 2\mu X + \mu^2) \]

利用期望的线性性质，上式变为：

\[Var(X)=E(X^2)-2\mu E(X) +\mu^2=E(X^2) - \mu ^ 2 \]

切比雪夫不等式:(Chebyshev's inequality)，方差和标准差刻画了随机变量可能取值的发散程度，切比雪夫不等式给出了量化的表述。令\(X\)是均值为\(\mu\)，方差为\(\sigma^2\)的随机变量。对任意的\(t>0\)，有：

\[P(|X-\mu|>t) \leq \frac{\sigma^2}{t^2} \]

证明令\(Y = (X - \mu)^2\)，那么\(E(Y) = \sigma^2\)，由马尔科夫不等式有\(P(Y \geq t^2) \leq \frac{E(Y)}{t^2}\)，即得证。

上式表名，如果\(\sigma^2\)非常小，就会有较高的概率保证\(X\)不会偏离\(\mu\)太远；对于另一种解释，我们可以设定\(t=k\sigma\)，不等式变为：

\[P(|X-\mu| \geq k\sigma) \leq 1/k^2 \]

则有结论：

\(k=2\)时，在\((\mu - 2\sigma,\mu + 2 \sigma)\)范围内的概率为\(75\%\),范围外的概率不超过\(25\%\)
\(k=3\)时，在\((\mu - 3\sigma,\mu + 3 \sigma)\)范围内的概率为\(8/9\),范围外的概率不超过\(1/9\)
\(k=4\)时，在\((\mu - 4\sigma,\mu + 4\sigma)\)范围内的概率为\(15/16\),范围外的概率不超过\(1/16\)
\(k=10\)时，在\((\mu - 10\sigma,\mu + 10\sigma)\)范围内的概率为\(99/100\),范围外的概率不超过\(1/100\)

切比雪夫不等式有如下结论：如果\(Var(X)=0\),那么\(P(X=u)=1\)
证明：(反证法)。假设\(P(X=\mu)<1\)。那么对于某个\(\varepsilon > 0，P(|X-\mu| \geq \varepsilon) > 0\);然而，由切比雪夫不等式，对任意\(\varepsilon > 0\)，

\[P(|X-\mu| \geq \varepsilon) = 0 \]

测量误差模型

用\(X\)度量某个测量，用\(x_0\)记为测量的真实值，\(\beta\)表示系统误差，是一个常数，\(\varepsilon\)表示随机误差，\(\varepsilon\)是一个随机变量，具有\(E(\varepsilon) = 0\)，\(Var(\varepsilon)=\sigma^2\),那么度量\(X\)的模型如下:

\[X = x_0 + \beta + \varepsilon \]

且有\(E(X)=x_0+\beta\)，\(Var(X) = \sigma^2\)。

\(\beta\)常称为测量过程中的偏倚(bias)，影响误差大小的因素分别为偏倚bias和方差\(\sigma^2\)。完美的测量(基本不存在)具有\(\beta=0\)和\(\sigma^2=0\)

测量误差的全部度量通常用均方误差(mean squared error)来表示，定义为：

\[MSE = E[(X - x_0)^2] \]

均方误差是\(X\)偏离\(x_0\)平方的期望，按照贡献程度可以将其分解成偏差和方差。

\(MSE = \sigma^2 + \beta^2\)

证明：\(E[(X-x_0)^2] = Var(X-x_0) + [E(X-x_0)]^2 = Var(X-x_0) + \beta^2 = \sigma^2 + \beta ^2\)

协方差和相关

随机变量的方差是其变异性的度量，两个随机变量的协方差(covariance)是它们联合变异性的度量，或是它们关联度的度量。

协方差：如果\(X\)和\(Y\)是分别具有期望\(\mu_X\)和\(\mu_Y\)的随机变量，只要下述期望存在，\(X\)和\(Y\)的协方差是：

\[Cov(X,Y)=E[(X-\mu_X)(Y-\mu_Y)] \]

协方差是\(X\)与其均值离差和\(Y\)与其均值离差的乘积平均值。如果两个随机变量的关联是正向的，也就是当\(X\)大于它的均值时，\(Y\)也倾向于大于它的均值，协方差是正的，当两个随机变量的关联是负向的，也就是\(X\)大于它的均值时，\(Y\)却小于它的均值，协方差是负的。

通过乘积展开和期望的线性性质，我们得到协方差的另一种表达形式：

\[\begin{align} Cov(X,Y) &= E(XY - X\mu_Y - Y\mu_X+\mu_X\mu_Y) \\ &=E(XY) - E(X) \mu_Y-E(Y) \mu X+ \mu X \mu Y \\ &=E(XY) - E(X)E(Y) \end{align} \]

特别地，如果\(X\)和\(Y\)独立，那么\(E(XY)=E(X)E(Y)\)，\(Cov(X,Y)=0\)。

相关系数：correlation coefficient定义在协方差的基础上。如果\(X\)和\(Y\)的方差和协方差都存在，且方差非\(0\)，那么\(X\)和\(Y\)的相关系数记为\(\rho\)，定义如下：

\[\rho = \frac{Cov(X,Y)}{\sqrt{Var(X)Var(Y)}} \]

注意，因为定义为比值形式，相关系数无量纲。利用之前介绍的方差和协方差的性质，如果\(X\)和\(Y\)都进行线性变换，相关系数不会发生改变。因为相关系数不依赖于测量单位，因此在多数情况下，\(\rho\)要比协方差更易于度量相关联性。

经常使用如下的记号和关系式，\(X\)和\(Y\)的标准差分别记为\(\sigma_X\)和\(\sigma_Y\)，它们的协方差记为\(\sigma_{XY}\),因此有

\[\rho = \frac{\sigma_{XY}}{\sigma_X\sigma_Y} \]

\[\sigma_{XY} = \rho \sigma_X \sigma_Y \]

\(-1 \leq \rho \leq 1\)，进一步，\(\rho=\pm 1\)当且仅当\(P(Y=a+bX)=1\)，其中\(a\)和\(b\)为某个常数。

证明：因为随机变量的方差都是非负的，所以：

\[\begin{align} 0 &\leq Var(\frac{X}{\sigma_X} + \frac{Y}{\sigma_Y}) \\ &= Var(\frac{X}{\sigma_X}) + Var(\frac{Y}{\sigma_Y}) + 2Cov(\frac{X}{\sigma_X},\frac{Y}{\sigma_Y}) \\ &= \frac{Var(X)}{\sigma_X^2} + \frac{Var(Y)}{\sigma_Y^2} + \frac{2Cov(X,Y)}{\sigma_X\sigma_Y} \\ &= 2(1+\rho) \end{align} \]

由上式，我们得到\(\rho \geq -1\)，类似地，根据\(Var(\frac{X}{\sigma_X} - \frac{Y}{\sigma_Y}) \geq 0\)可得\(\rho \leq 1\)

posted @ 2019-08-21 14:48 Evian_Jeff 阅读(537) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

Evian_Jeff

The best time to plant a tree is 10 years ago, the second is now