机器学习——期望与方差
每个随机变量都有一个分布(分布列、概率密度函数或者分布函数),不同的随机变量可能拥有不同的分布,也可能拥有相同的分布。分布全面地描述了随机变量取值的统计规律性,由分布可以算出随机变量事件的概率,也可以求出随机变量的均值、方差、分位数等特征数。这些特征数从某个侧面描述了分布的特征。
数学期望的概念
数学期望来源于历史上一个著名的分赌资问题: 17世纪中叶,一位赌徒向法国数学家帕斯卡提出了一个苦恼它很久的分赌资的问题:甲乙两个赌徒赌技相同,各出50法郎共计100元。每局中无平局,谁先赢三局,则得到全部赌资。当甲赢了2局、乙赢了一局时,因故中止了赌博。现问着100法郎该如何分配才算公平?
这个问题引起了很多人的兴趣。首先大家都认识到:把赌资平分则对甲不公平(0.5 : 0.5);把赌资都给甲则对乙不公平(1.0 : 0)。合理的分法是,按一定的比例,甲多分些,乙少分些。所有问题的焦点在于,按照怎样的比例来分最合适。以下有两种分法:
(1)甲得100法郎的2/3,乙得100法郎的1/3.这是基于已赌局数:甲赢了2局,乙赢了1局。
(2)帕斯卡提出如下分法:设想再赌下去,则甲最终所得X为一个随机变量,其可能的取值为0或者100.再赌2局则必可结束,其结果无外乎以下四种情况之一:
甲甲、甲乙、乙甲、乙乙
其中“甲乙”表示第一局甲胜第二局乙胜。因为赌技相同,所以在这四种情况中有三种情况可使甲获得100法郎,只有一种情况“乙乙”下甲获得0法郎。所以甲获得100法郎的可能性为3/4,获得0法郎的可能性为1/4,即X的分布列为
x | 0 | 100 |
P | 0.25 | 0.75 |
经过上述分析,帕斯卡认为,甲的“期望”所得应为:0 * 0.25+100 * 0.75=75法郎。即甲得75法郎,乙得25法郎。这种分法不仅考虑了已赌局数,而且还包括了对再赌下去的一种“期望”,它比(1)分法更合理。这就是数学期望这个名称的由来,比“均值”更形象易懂。
数学期望的定义
定义:设离散随机变量X的分布列为\(p(x_i)=P(X=x_i),i=1,2,...,n,...\), 如果级数\(\sum_{i=1}^{+\infty}|x_i|p(x_i)\)收敛,则称
\(E(X)=\sum_{i=1}^{+\infty}x_ip(x_i)\)
为随机变量X的数学期望,或称为该分布的数学期望。如上述级数不收敛,则称X的数学期望不存在。
注:上述定义要求级数绝对收敛的目的是使数学期望存在且唯一,因为随机变量的取值可正可负,取值次序可先可后,由无穷级数的理论可知,如果此无穷级数绝对收敛,则可保证该无穷级数和不受次序变动影响。可参阅《数学分析》
定义: 设连续随机变量X的密度函数为p(x),如果无穷积分\(\int_{-\infty}^{+infty} |x|p(x)dx\) 存在,则称
\(E(X)=\int_{-\infty}^{+\infty}xp(x)dx\)
为X的数学期望,或称为该分布p(x)的数学期望。如上述积分不存在,则称X的数学期望不存在。
性质1: 若c是常数,则\(E(c)=c\)
性质2: 对任意常数a, 有\(E(aX)=aE(X)\)
性质3: 对于任意两个函数\(g_1(x)\)和\(g_2(x)\),有\(E[g_1(X)\pm g_2(X)]=E[g_1(X)]\pm [g_2(X)]\)
例: 在一个人数为N的人群中普查某种疾病,为此要抽检N个人的血。如果将每个人的血分别检验,则需要检验N次。为了减少工作量,一位统计学家提出一种方法:按k个人一组进行分组,把同组k个人的血样混合后检验,如果这混合血样呈阴性,就说明此k个人的血都呈阴性都没有此疾病。而且这k个人只要检验1次就够了,相当于每个人检验了1/k次,检验的工作量明显下降。如果这混合血样呈阳性,就说明这k个人中至少有一个人的血呈阳性,则需要再次对这k个人的血样进行检验,因此这k个人的血药检验1+k此,相当于每个人检验了1+1/k次。这时增加了检验次数。假设该疾病的发病率为p,且得次疾病相互独立。试问这种方法能否减少平均检验次数。
解: 令X为该人群中每个人需要的验血次数,则X的分布列为
x | 1/k | 1+1/k |
P | \((1-p)^k\) | \(1-(1-p)^k\) |
所以每人的平均验血次数为
\(E(X)=\frac{1}{k}(1-p)^k+(1+\frac{1}{k}) [1-(1-p)^k] = 1-(1-p)^k + \frac{1}{k}\)
由此可以选择k使得\(E(X)<1\)即\((1-p)^k>\frac{1}{k}\)即可减少验血次数,而且根据不同p可以选择合适的k使验血次数期望达到最小值。譬如p=0.1,针对不同看,E(X)取值如下:
由此可见,当k=4时,平均验血次数最少,验血工作量可减少40%。
我们对不同的发病率p计算出最佳的分组人数k0,参加下表。从表中可以看出,发病率p越小,则分组检验的效益最大。
上述方法正是美国二战期间大量征兵时,对新兵验血所采用的减少工作量的措施。
现在全球新冠疫情肆虐,国内核酸检测亦是如此,通常采用10管混检。截止2022.5全球新冠感染人数达到了5.16亿,全球总人口为76亿,粗略估算感染率为p=0.067.当然这个全球疫情十分复杂,很多因素影响这个工作量
(1)核酸检测技术本身的精确性
(2)采取咽拭子混检人数增多是否进一步降低检测精确性
(3)新冠病毒传播隐蔽及快速,涉及人群是人类历史之最,这个感染情况是实时变化的,需要重复检验才能有效控制
……
常态化核酸检测的经济账:
http://henan.china.com.cn/finance/2022-05/11/content_41966627.htm
方差与标准差的定义
设随机变量X的均值为\(a=E(X)\),X的取值当然不一定恰好是a,会有偏离。偏离的量\(X-a\)有正有负,为了不使正负彼此抵消,我们一般考虑\((X-a)^2\),而不会考虑数学上难以处理的绝对值\(|X-a|\).因此\((X-a)^2\)仍是一个随机变量,所以其均值\(E[(X-a)^2]\)就可以作为刻画X的“波动”程度,这个量被称为X的方差,其定义如下。
定义: 如随机变量\(X^2\)的数学期望\(E[X^2]\)存在,则称偏差平方\((X-E[X])^2\)的数学期望 \(E[(X-E[X])^2]\)为随机变量X的方差,记为
\(Var(X)=E[(X-E[X])^2]\)=\(\begin{cases}\sum_i{[x_i-E(x)]^2p(x_i)}, & \text{在离散场合} \\ \int_{-\infty}^{+\infty}[x-E(X)]^2p(x)dx, & \text{在连续场合} \end{cases}\)
称为方差的正平方根\(\sqrt{Var(X})\)为随机变量X的标准差,记为\(\sigma(X)\)或\(\sigma_X\)
方差的性质
性质1: \(Var(X)=E(X^2)-[E(X)]^2\)
\(Var(X)=E[(X-E(X))^2]=E[X^2-2XE(X)+(E(X))^2]\), 由数学期望性质,\(Var(X)=E(X^2)-2E(X)E(X)+(E(X))^2=E(X^2)-(E(X))^2\)
性质2: 常数的方差为0,即\(Var(c)=0\),其中c是常数
性质3: 若a,b是常数,则\(Var(aX+b)=a^2Var(X)\)