【初等概率论】 04 - 数字特征

  随机变量的分布函数包含了它的全部信息,随之我们就需要对随机变量进行一些定量分析,即通过相对简单的数值来度量随机变量的某些特征。有些特征对于随机变量来说比较基本、比较重要,比如平均值、分散程度等,本篇就集中讨论这些特征。

1. 数学期望

1.1 期望的定义

  随机变量可取到一些实数值,对其最常用的一种度量便是平均值,而每个值上的概率(或概率密度)应当作为权值。具体来说,在离散场合,把式(1)右定义为随机变量ξ的“平均值”,它也被称为数学期望。要注意一点,我们希望平均值不受xi顺序的影响,故数学期望的定义还要加上绝对收敛的条件(式(1)左)。

(1)i=1|xi|p(xi)<Eξ=i=1xip(xi)

  对连续场景,密度函数与本质上就是概率分布,故可将式(1)推广成式(2)左。当它绝对收敛时,也被称为ξ的数学期望。为了有统一定义,需要引进式(2)右的Stieltjes积分,它的严格定义和统一性证明需要用到实变函数的知识,以下仅借用其形式以避免离散和连续的分类讨论。

(2)Eξ=+xp(x)dx;Eξ=+xdFξ(x)

  把平均值叫成数学期望其实是有道理的,因为对随机现象来说,它就是理论上的期望值。数学期望是对随机向量最基本的一个度量值,单一的度量值更便于应用,它存在于社会经济的各方面,为经济行为提供了决策的依据。

   已知人群中某疾病的患病率为p,请设计一种验血方法,使得验血次数尽量少(可混合验);

   有无限多的N种卡片,求集齐它们平均需要抽多少次?

   n根绳子放在箱子中,随机将绳头两两相连,求形成圈数的期望值。

1.2 变量函数的期望

  对随机变量的讨论,总离不开对其函数的分析,这里也照例看看随机变量函数的数学期望。如果理解了数学期望的定义,便知道它其实就是加权平均值,在这里变量函数就是值,而变量的概率还是权值,故函数的期望一定是式(3)所示。当然这只是一个直观解释,严格证明还是需要实变函数的知识。

(3)Eg(ξ1,,ξn)=++g(x1,,xn)dF(x1,,xn)

  式(3)一般计算起来比较困难,但利用积分运算的特点,在有些常见情况下可以简化运算。首先如果g(x1,,xn)=g1(x1)gn(xn),且ξ1,,ξn互相独立,则可以把积分分离得到式(4)。另外如果g(x1,,xn)=g1(x1)++gn(xn),不需要独立性便有式(5)成立。

(4)E[g(x1,,xn)]=Eg1(ξ1)Eg2(ξ2)Egn(ξn)

(5)E[g1(ξ1)++gn(ξn)]=Eg1(ξ1)++Egn(ξn)

  式(4)的典型特例是式(6)左,其中ξ1,,ξn互相独立。式(5)的典型特例是线性函数(式(6)右),它不要求独立性,这一点非常有用。比如前面我们已经知道:二项分布是独立的伯努利分布之和,帕斯卡分布是独立的几何分布之和,埃尔朗分布是独立指数分布的和,它们的期望值可以直接求得。

(6)Eξ1ξ2ξn=Eξ1Eξ2Eξn;E(i=1aiξi+b)=i=1aiEξi+b

   M个产品中有m个次品,采用不放回抽样,求次品数的期望;

   (报童问题)卖报数服从泊松分布,求每天进多少张收益最大。

2. 方差

2.1 矩和方差

  数学期望Eξ是随机变量的平均值,或者可以称作随机变量的中心μ。上面还提过,数学期望是变量值的加权平均,稍作扩展便可定义式(7)左的k零点矩。之所以叫零点矩,是因为单个值是随机变量与0的偏差的k次幂。如果以中心μ为偏差参考,则可以定义式(7)右的k中心矩

矩在数学里有多类似的概念,是一个很常规的度量,这里仅作简单的讨论。

(7)mk=Eξk;ck=E(ξEξ)k

  和期望一样,矩也要先讨论存在性,由于|ξ|k11+|ξ|k,故有结论:如果k阶矩存在,则低于k阶的矩都存在。另外,不难按二项式展开k阶中心矩,得到式(8)左。然后用反演公式便可得到式(8)右,当然也可以直接计算。

(8)ck=i=0k(ki)(m1)kimi;mk=i=0k(ki)m1kici

  当k=2时,中心矩c2可以看成是随机变量对中心偏离程度的一种度量(式(9)),它被称为随机变量的方差。由于矩的良好分析性质,选取c2作为偏离度的度量非常便于处理。为了与随机变量有相同的量纲,也称ρ=Dξ标准差

(9)ρ2=Dξ=E(ξEξ)2=Eξ2(Eξ)2

  关于方差和标准差,我有些自己的理解,可能不太准确。下面我们难免会拿线性代数中的向量和随机变量做对比,我想在这里先建立一个直观的联系。向量可以看做是相对原点的一个偏移,标准化向量则是统一了偏移的绝对值而保利了方向信息。随机变量则可以看作是相对期望值的偏移,标准差是统一了偏移的绝对值而保留了分布信息。由此可见,中心矩比零点矩有更实际的意义,对随机变量做中心化处理往往是必须的。

2.2 方差的性质

  刚才提到方差具有很好的分析性质,这里就举一些简单的例子,并且这些结论以后也是经常用到的。首先有一个简单的不等式(10),它表明中心是与随机变量偏差最小的值,这也很符合“中心”的含义,用中心化的随机变量的2阶矩定义方差是明智的。

(10)E(ξc)2=E(ξEξ)2+(Eξc)2Dξ

  方差表示随机变量对中心的偏移程度,这个描述有更具体的佐证吗?还真有!结论表明,方差可以用来估算随机变量在中心周围的分布。具体来看式(11)的推导,其中ε>0为任意正数,该式整理后便是著名的切比雪夫不等式(12)。这个不等式对中心某个范围外的随机变量进行了很好的估算,特别地,它还可以直接证明:方差为0的随机变量是常数。

(11)Dξ|xEξ|εε2dF(x)=ε2P(|ξEξ|ε)

(12)P(|ξEξ|ε)Dξε2

  最后还是照例看看,随机变量的函数的方差如何计算。方差的计算比期望复杂的多,故函数的方差很难有好的性质,并且目前我们的工具还不够。这里就先讨论最简单的一元一次函数η=kξ+c,容易验证有式(13)成立,它表明偏移不影响偏差,而缩放则影响较大,这是符合直觉的。有时候为了研究随机变量分布的本质特点,会将其均值和方差统一成(0,1),式(14)定义的ξ便叫标准化的随机变量。标准变量的切比雪夫不等式有更简单的表达式(15),体会刚才说的“本质特点”。

(13)D(ξ+c)=D(ξ);D(kξ)=k2D(ξ)

(14)ξ=ξEξDξEξ=0,Dξ=1

(15)P(|ξ|ε)1ε2

2.3 协方差和相关系数

  当研究线性函数的方差D(ξ+η)时,你会发现无法绕开对Eξη的讨论,中心化后便是对式(16)的讨论,该式被称为ξ,η协方差。不难发现,它是方差概念的推广,方差好比是向量的一个平方和范数,协方差则好比向量的内积,平方和范数是内积的特例,而方差是协方差的特例。为此,对协方差的研究,完全可以参照对向量内积的研究。标准化的内积表示向量间的线性关系,内积为0表示向量正交,内积为±1则是共线的。在欧几里得空间中,标准化内积更是直接表示了直线的夹角。

(16)cov(ξ,η)=E[(ξEξ)(ηEη)]=E(ξη)EξEη

  为此,我们很兴奋地大胆猜测,标准化后的协方差(式(17))一定也是随机向量某种“线性关系”的度量。我们需要对此做进一步的验证,为简单起见,只需讨论中心化后的变量ξ,η,而此时ρ的表达式中只有E(ξη)Eξ2Eη2。由形式特点,我们不难想到想用判别式法,即由式(18)得到式(19)。它也被称为柯西不等式,等号成立的充要条件是,存在常数t0使得η=t0ξ。注意,柯西不等式本身是不需要ξ,η中心化的。

(17)ρ=cov(ξ,η)DξDη,(|ρ|1)

(18)E(tξη)2=t2Eξ22tE(ξη)+Eη20

(19)(Eξη)2Eη2Eη2

  有柯西不等式立刻能得到|ρ|1,并且等号成立时有ξ=±η。这说明把ρ作为线性关系的度量是很有合理的,ρ因此也被称为随机变量的相关系数。当ρ=0时我们称随机变量是不相关的,需要强调的是这里的相关只是线性相关。随机变量ξ,η不相关的等价条件是Eξη=EξEη,中心化后便是Eξη=0,这和向量直交完全对应!

  到此为止,我们可以继续研究方差D(ξ+η)了。首先容易有式(20)成立,该式有时可以用来计算协方差。当ξ,η不相关时,有cov(ξ,η)=0D(ξ+η)便有了更简单的表达式Dξ+Dη。更一般地,如果ξ1,,ξn两两不相关,则有式(21)成立。

(20)D(ξ+η)=E(ξ+η)2=Dξ+Dη+2cov(ξ,η)

(21)D(i=1naiξi+b)=i=1nai2Dξi+b

  由于不相关仅针对线性关系,它是比独立性更弱的条件,也就是说独立的随机变量一定是不相关的,这可以由等价条件Eξη=EξEη直接得出。但反之,不相关的随机变量却也可能是不独立的,举个简单的例子自己体会η=ξ2。然而对独立同分布随机变量,式(21)必然成立,这个结论可以说明:取多次测量的平均值可以降低误差(式(22))。

(22)D(1ni=1nξi)=σ2n

   有两只铅笔,同样只测量两次,如何降低误差?

2.4 线性回归

  现在来考虑一个问题,假定随机变量ξ,η存在某个函数关系η=f(ξ),但事先只知道它们的联合分布(由试验所得),则如何找到f(x)的最佳逼近g(x)?何为最佳逼近?有了方差的基本思想后,可知要求E(ηg(ξ))2达到最小是比较合理的。类似式(10)的证明,显然应该取g(x)=E{η|ξ=x},为此随机变量g(ξ)=E{η|ξ}也被称为η关于ξ回归。容易验证它满足式(23),它被称为重期望公式,可以用来间接计算Eη

(23)E[E{η|ξ}]=Eη

  以上回归模型要求能提供条件分布,这对样本点有一定要求,当样本点在每个变量上都比较随机时,则无法使用。但当预估ξ,η有代参函数关系η=f(ξ,c1,,cn)时,同样可以通过计算E[ηf]2的极值而得到参数值。比如假设变量有线性关系L(x)=ax+b,为使函数c(a,b)=E[η(aξ+b)]2达到最值,可令其偏导数为零,最终便能得到式(24)(请自行计算)。

(24)L(x)=ρσ2σ1(xμ1)+μ2

  L(ξ)称为η关于ξ线性回归,式中的每个参数都可以由样本点估算得来,对样本点的采集没有特殊的要求。容易算得ηL(ξ)的方差是σ22(1ρ2),这再次说明了ρ是随机变量线性关系的度量。我们还可以说,L(ξ)已经提取了η关于ξ的所有线性关系,即ηL(ξ)ξ是不相关的(自行验证),该结论被称为均值-方差理论。有没有发现这里有最小二乘法的影子?它们本质是相通的。

3. 特征函数

3.1 母函数

  虽然分布函数给出了概率分布的统一形式,但很多分布函数并没有良好的分析性质,这也使得它的应用非常受限。我们急需要一种新的函数,它既能完整表达整个概率分布,又具有十分良好的分析性质。对非负离散随机变量,我们不难想到数列的母函数,由概率分布的规范性知,式(25)在|s|1上一致且绝对收敛。

(25)P(s)=k=0pksk=Esξ

  母函数有着非常好的分析性质,尤其一些常见分布的母函数也很简洁,这为处理问题提供了方便,甚至可以用母函数取代概率分布。一个很有用的结论是式(26),利用它们可以方便地计算期望和方差。

ξ b(k;n,p) g(k;p) b(k;λ)
P(s) (ps+q)n ps1qs eλ(s1)

(26)Eξ=P(1);Dξ=P(1)+P(1)[P(1)]2

  按照惯例,引入一个新特征,总要考察一下变量函数的特征。在这里不难证明,对独立随机变量ξ,η,设它们的母函数为A(s),B(s),则ξ+η的母函数为A(s)B(s)。特别地,n个独立同分布随机变量和的母函数是Pn(s),这对我们在“常见分布”那篇中提到的分布很有用。

  最后再来看个问题,对于独立同步变量ξi,计算ζ=ξ1+ξ2++ξη,其中η也是随机变量。设ξi,η相互独立且母函数分别为F(s),G(s)。不难证明(从略),ζ的母函数为G[F(s)],并进而求得Eζ=EξEη

   掷5颗筛子,求和为15的概率;

   蚕的产卵数服从泊松分布,每个卵成虫律为p,求成虫数的分布。

3.2 特征函数

  母函数虽然好用,但它只能运用在离散随机变量,对于连续随机变量或更一般的情况,有没有类似的工具呢?如果你学过傅里叶分析,应当知道傅里叶变换就是母函数思想的升级版本,为此我们把式(27)称为随机变量ξ特征函数。对离散情况它就是母函数P(eit),连续情况则是密度函数的傅里叶变换形式。关于傅里叶变换,我目前还知之甚少,故不多做阐述。

(27)fξ(t)=Eeitξ=eitxdFξ(x)

  和母函数一样,对独立随机变量ξi,它们和的特征函数满足式(28)。离散变量的特征函数可以直接由母函数修改得到,这里仅列出指数分布的特征函数(式(29)),埃尔朗分布的特征函数自然也就出来了。

(28)fξ1+ξ2++ξn(t)=fξ1(t)fξ2(t)fξn(t)

(29)ξλeλxfξ(x)=(1itλ)1

  仔细观察式(28),特征函数中的幂函数将加法变成乘法,但很多变量的特征函数仍保持着幂函数成分,乘法此时还能变成加法。具体来说,如果含参分布F(k)的特征函数有形式Xk,那么对于独立同分布ξ1,ξ2有式(30)成立,它被称为特征函数的再生性。满足这个特点的分布函数比较多,比如二项分布、帕斯卡分布、泊松分布、埃尔朗分布等。

(30)ξF(x;k),fξ=Xk(ξ1+ξ2)F(x;k1+k2)

  对于随机向量ξ=(ξ1,,ξn),同样可以定义特征函数(31)。由这个式子不难得到,随即向量子空间的特征函数是将其它维的ti0得到,比如(ξ1,,ξm)的特征函数为f(t1,,tm,0,,0)。还可以知道,ξi相互独立的充要条件是f(t1,,tn)=fξi(ti)

(31)fξ(t1,,tn)=ei(t1x1++tnxn)dFξ(x)

  随机变量还有一个非常重要的度量方法,就是考察其“不确定性”的程度、或者包含的“信息量”。可想而知,这个量与期望、方差都没有关系,它只关乎“随机程度”。这个概念叫“熵”,它是一个非常有趣且丰富的课题,属于概率论的一个应用分支。缺少“熵”的概念并不影响概率论本身,故这里不作介绍,以后会在《信息论》中展开讨论。

posted on   卞爱华  阅读(1300)  评论(0编辑  收藏  举报

编辑推荐:
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
阅读排行:
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 地球OL攻略 —— 某应届生求职总结
· 提示词工程——AI应用必不可少的技术
· Open-Sora 2.0 重磅开源!
· 周边上新:园子的第一款马克杯温暖上架

导航

点击右上角即可分享
微信分享提示