(三)概率论之期望与方差
先引入两个问题
问题1:一赌徒,下赌本$n$元,赌博成功的概率为$p$此时赢得奖金为$m(m>n)$元,要不要试一试手?
问题2:小红与小明是班级中的佼佼者,考试的平均成绩相同,问派随代表学校参加竞赛比较公平?
如果我们知道随机变量的概率分布,那么关于随机变量的所有信息我们都可以得到,然而很多时候得到概率分布是不容易的而且没有必要,退而求其次我们需要刻画随机变量的一些特征。为解决问题1提出来数学期望(expectation)的概念,为解决问题2提出方差概念。
定义:
期望(expectation):设随机变量$X$取值为$x_{1},x_{2},\cdots,x_{n},\cdots$的概率为$p_{1},p_{2},\cdots,p_{n},\cdots$.
\[E(X)=\sum x_{i}p_{i}\]
连续型随机变量$X\sim f(x)$
\[E(X)=\int_{-\infty}^{+\infty}xf(x)dx\]
期望是随机变量的特征刻画,关于级数收敛应该为排项次序无关,故应当绝对收敛,积分也应当是绝对收敛。从期望的定义可以看出期望实际是一种加权平均值。一般的算术平均可以看做是期望的一种特殊情况,设随机变量取值$x_{1},x_{2},\cdots,x_{n}$的概率为$\frac{1}{n}$
\[E(X)=\frac{x_{1}+x_{2}+\cdots+x_{n}}{n}\]
现在来看问题1,把赢得钱数为随机变量
\[E(X)=-(1-p)n+pm\]
当$m\geq \frac{1-p}{p}n$时,$E(X)\geq 0$.还是值得玩一玩的。当然关于这个$p$的值是多少?多多少少有一点主观的成分在里面。
有了期望的定义,我们就可以计算(二)中的各个分布的数学期望。
期望的性质:
(1) 随机变量的和的期望等于各随机变量期望之和
\[E(X+Y)=E(X)+E(Y)\]
Proof:
先看离散的情况
\begin{align*} E(X+Y)&=\sum_{i,j} (x_{i}+y_{j})p_{ij}\\ &=\sum_{i} x_{i}\sum_{j}p_{ij}+\sum_{j}y_{j}\sum_{i}p_{ij}\\ &=E(X)+E(Y) \end{align*}
连续的情况类似
\[E(X+Y)=\int\int (x+y)f(x,y)dxdy=E(X)+E(Y)\]
问题:对无穷多个随机变量上面的等式还成立吗?(理论上探索可能有意义,而实际过程中随机变量的个数总是有限多个,此处欠妥)
(2)随机变量的常数倍
\[E(aX)=aE(X)\]
(3) 若$X\sim f(x)$,导出的新随机变量$Y=g(X)$
\[E(Y)=\int_{-\infty}^{+\infty}g(x)f(x)dx\]
(4) 若随机变量$X,Y$独立
\[E(XY)=E(X)E(Y)\]
更进一步,$g(X)$和$h(Y)$相互独立
\[E(g(X)h(Y))=E(g(X))E(h(Y))\]
(5) 对于多维随机变量$(X,Y)\sim f(x,y)$
$X$的边缘密度函数
\[f(x)=\int_{-\infty}^{+\infty}f(x,y)dy\]
因此
\[E(X)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}xf(x,y)dxdy\]
$Y$的边缘密度函数
\[g(y)=\int_{-\infty}^{+\infty}f(x,y)dx\]
此时
\[E(Y)=\int_{-\infty}^{+\infty}\int_{-\infty}^{+\infty}yf(x,y)dxdy\]
回忆(一)中的条件概率公式
\[P(B|A)=\frac{P(AB)}{P(A)}\]
则
\[P(Y=y|X=x)=\frac{P(Y=y,X=x)}{P(X=x)}\]
即
\[f(y|x)=\frac{f(x,y)}{\int_{-\infty}^{+\infty}f(x,y)dy}\]
定义条件期望($Y$对$X$的回归函数)
\[E(Y|x)=\int_{-\infty}^{+\infty}yf(y|x)dy\]
整理一下
\[E(Y|x)=\frac{1}{f(x)}\int_{-\infty}^{+\infty}yf(x,y)dy\]
Remark:在此式中可能涉及分母为0的情况,可用极限处理。
从而我们得到了条件期望与期望的关系
\[E(Y)=\int_{-\infty}^{+\infty}E(Y|x)f(x)dx\]
方差(variance):方差是衡量在期望$\mu=E(X)$(均值)附近震荡程度的量可用下式计算
\[Var(X)=E(X-\mu)^{2}\]
一个等价的公式是
\[Var(X)=E(X^{2})-E^{2}(X)\]
方差的性质:
(1) $Var(X)\geq 0$,$Var(c)=0$,指常数没有震荡。
(2) $Var(cX)=c^{2}Var(X)$ 此公式提供了改善震荡的一个方法那就是将随机变量取值进行伸缩。
(3) $Var(X+c)=Var(X)$,对所有随进变量取值进行平移不改变震荡程度。
(4) 独立的随机变量之和的方差等于方差的和(Remark:均值的这个性质不要求随机变量独立)
\[Var(X+Y)=Var(X)+Var(Y)\]
Proof:
\[Var(X+Y)=E(X^{2}+Y^{2}+2XY)-E^{2}(X)-E^{2}(Y)-2E(X)E(Y)\]
因为$X,Y$互相独立
\[E(XY)=E(X)E(Y)\]
带入上式便得
\[Var(X+Y)=Var(X)+Var(Y)\]
从证明过程看独立条件必不可少。由于方差是由期望定义的,所以方差的一切性质可由期望导出,可见期望的概念要比方差重要。
中位数:另一个日后可能用到的概念
\[F(m)=P(X\leq m)=\frac{1}{2}\]
称m为分布$F$的中位数或者$X$的中位数。类似有众数等。
矩:是期望和方差的推广,是很重要的概念。
\[E(X^{k})=\int_{-\infty}^{+\infty}x^{k}f(x)dx\]
称为随机变量$X$的$k$阶原点矩。
\[E(X-\mu)^{k}=\int_{-\infty}^{+\infty}(x-\mu)^{k}f(x)dx\]
称为随机变量$X$的$k$阶中心矩。
由任意阶矩的信息推测分布函数的信息是概率论的一个重要课题。一阶原点矩表示期望,二阶中心矩表示方差。更高阶的矩也有一定的意义,三阶中心矩(偏态)与偏度有关,四阶中心矩(峰态)和峰度有关。
母函数:
\[G(z)=\sum z^{n}P(X=n)\]
称$G(z)$为随机变量$X$生成的母函数。
矩母函数:
\[ M_{X}(t)=E(e^{tX})=\int_{-\infty}^{+\infty}e^{tx}f(x)dx \]
对其求导便可得到随机变量的所有矩。$\psi ^{(n)}(0)$
特征函数:
\[\psi_{X}(t)=E(e^{itX})=\int_{-\infty}^{+\infty}e^{itx}f(x)dx \]
函数的Laplace变换与Forier变换,后者尤其重要。
问题3:设身高$X$,体重$Y$,这两个随机变量有没有相关性?
协方差与相关系数:
\[Cov(X,Y)=E[(X-\mu_{X})(Y-\mu_{Y})]\]
一个等价的公式
\[Cov(X,Y)=E(XY)-E(X)E(Y)\]
性质:
(1) 显然 $Cov(X,X)=Var(X)$
(2) 若$X,Y$相互独立,$Cov(X,Y)=0$.意义很明显若$X,Y$独立则他们不相关。(独立的一个必要条件)
(3) 有不等式$[Cov(X,Y)]^{2}\leq Var(X)Var(Y)$.类似内积空间的$CSB$不等式,因此证明方法相同。
标准差:随机变量$X$的标准差定义为方差的开方
\[\sigma=\sqrt{Var(X)}\]
相关系数:
\[\rho=\frac{Cov(X,Y)}{\sigma_{X}\sigma_{Y}}\]