概率的频率估计——统计学(六)

在最初接触概率的时候,我们学习的是古典概率,是频率派的解释。最常见的一个例子是抛硬币。如果一枚硬币是没有磨损的,那么抛一枚硬币出现正面和反面的概率都是0.5。以出现正面为例,其概率为0.5的含义是:重复抛硬币,抛N次,当N越大时,硬币出现正面的频次就越接近0.5*N。0.5这个概率是客观存在的,但是我们只能通过对事件结果发生的频率来猜测这个值。如果我们将重复抛硬币抽象为重复发生的事件,抛硬币的结果抽象为事件发生的结果,那么概率是可重复事件不停发生时,出现某种结果的频率。如果某种结果的概率越大,意味着出现某种结果的频率越高,很自然地,我们认为出现某种结果的可能性越大。

一、频率与概率

频率,描述了事件发生的频繁程度。频率和概率是不同的概念,我们经常把频率说成了概率。如:当我们抛一枚硬币100次,出现40次正面朝上,60次反面朝上,这时有人说,正面朝上的概率是 2/5,这就是没能将频率和概率区分出来。在上面这个例子中,关于40次出现正面朝上,只能说正面朝上的频率是 2/5,而不能说概率是 2/5。
概率是理想值,频率是实验值。概率指的是,在所有发生的事件中,某一个事件发生的次数占所有事件次数的百分比。这里的“所有发生的事件”,在现实中几乎是无法统计的,如:统计从古至今所有人抛硬币的数量、统计全国的民众对某个政策的满意度等,因此,通常的做法是通过大量的实验或抽样样本来估算出总体的概率值。例如:抛硬币100次,出现正面的频率是 3/10,如果是1000次,出现正面的频率是 4/10,如果是10000次,出现正面的频率是5/10,也就是抛硬币的次数越多,频率值越接近1/2,这时的频率值就可以作为概率值。

1.1 频率

在相同的条件下,进行了n次试验,在这n次试验,事件A发生的次数fA称为事件A发生的频数。比值fAn称为事件A发生的频率,并记为fn(A)。事件A发生的频率是它发生的次数与试验次数之比,其大小表示A发生的频繁程度。

大量试验证实,当重复试验的次数n逐渐增大时,频率fn(A)呈现出稳定性,逐渐稳定于某个常数.这种“频率稳定性”即通常所说的统计规律性。我们让试验重复大量次数,计算频率fn(A),以它来表征事件A发生可能性的大小,是合适的。但是,在实际中,我们不可能对每一个事件都做大量的试验,然后求得事件的频率,用以表征事件发生可能性的大小.同时,为了理论研究的需要,我们从频率的稳定性和频率的性质得到启发,给出如下表征事件发生可能性大小的概率的定义.

1.2 概率

设E是随机试验,S是它的样本空间。对于E的每一事件A赋予一个实数,记为P(A),称为事件A的概率,如果集合函数P()满足下列条件:
非负性: 对于每一个事件A,有P(A)0
规范性 : 对于必然事件S,有P(S)=1
可列可加性: 设A1,A2,是两两互不相容的事件,即对于Ai,Aj=,ij,i,j=1,2,

P(A1A2)=P(A1)+P(A2)+

可以证明,当n时频率fn(A)在一定意义下接近于概率P(A)。基于这一事实,我们就有理由将概率P(A)用来表征事件A在一次试验中发生的可能性的大小。长期的实践中总结得到“概率很小的事件在一次试验中实际上几乎是不发生的"(称之为实际推断原理)。

二、伯努利大数定理

切比雪夫不等式
设随机变量X具有数学期望E(X)=μ,方差D(X)=σ2。则对于任意正数ϵ,不等式

P{|Xμ|ϵ}σ2ϵ2

切比雪夫不等式给出了在随机变量的分布未知,而只知道E(X)D(X)的情况下估计概率P{|XE(X)|<ϵ}的界限。

伯努利大数定理
fAn次独立重复试验中事件A发生的次数,p是事件A在每次试验中发生的概率,则对于任意正数ϵ0,有

limnP{|fAnp|ϵ}=0

伯努利大数定理的结果表明,对于任意ε>0,只要重复独立试验的次数n充分大,事件|fAnp|ϵ是一个小概率事件。亦即对于给定的任意小的正数ε,在n充分大时,事件“频率fAn与概率p的偏差小于ϵ”实际上几乎是必定要发生的。这就是我们所说的频率稳定性的真正含义。

三、频率的平均性

“0-1分布”、“两点分布”亦称伯努利分布。若随机变量X服从伯努利分布, 参数为p(0<p<1),如果它分别以概率p1p取1和0为值。伯努利试验成功的次数服从伯努利分布,参数p是试验成功的概率。伯努利分布是一个离散型概率分布,是为纪念 瑞士科学家詹姆斯· 伯努利(Jacob Bernoulli 或James Bernoulli)而命名。
在实际问题中我们只关注某个概率结果,将其他结果视作这个结果的对立事件,这是最简单的看问题方法(二分法)。所以可将我们要做的试验看作只有两个可能结果的试验,比如正面或反面,成功或失败,有缺陷或没有缺陷,病人康复或未康复。为方便起见,记这两个可能的结果为0和1,这就是两点分布的来源。

如果随机变量X只取0和1两个值,并且相应的概率为p1p,则
X 服从0-1分布或两点分布,记为X~b(1,p)。该分布的期望EX=p,方差DX=p(1p)

在频数计数时,我们可将要计数的类别(组别)视作成功,其他视作失败,取值恰好就是1和0。每一次计数就是一个两点分布,n次计数就是n个两点分布。若设这样的两点分布服从随机变量X,那么n次计数就得n个独立的两点分布X1,X2,...,Xn,就得:

k=1nXkn=fAn

即知频率是一组随机变量的平均数,这就是频率的平均意义。

中心极限定理
设随机变量X1,X2,...,Xn,...相互独立,服从同一分布,且具有数学期望和方差:E(Xk)=μD(Xk)=σ2>0 (k=1,2,..) 则随机变量之和 k=1nXk 的标准化变量

Yn=k=1nXknμnσ

的分布函数Fn(x),对于任意x满足

Fn(x)=limnP{Ynx}=x12πet22dt=Φ(x)

中心极限定理表明,当n充分大时,n个具有期望和方差的独立同分布随机变量之和近似服从正态分布。

伯努利大数定理是中心极限定理的特例。
设随机变量X1,X2,...,Xn,...相互独立,服从两点分布,其“成功”取1时的概率为p,“不成功”取0时的概率为1p,那么

k=1nXk=fA

k=1nXkn=fAn

就是统计的频率。由上面定理结论可知,频率是对概率的有效近似,也是平均的近似、稳定的近似,这就是频率的稳定性。

四、概率的贝叶斯解释

概率在现代已经是一个深入人心的词语和概念。我们有的时候会说某件事发生的概率很大,实际上想表达的应该是某件事发生的可能很大。可能性是一种定性的概念,概率则是其度量。就好像一个人的能力好坏是定性的概念,而一个人的考试分数则可作为其好坏程度的度量。但是当我们试图将生活中遇到的所有“可能”替换为频率派的概率解释时,将会遇到一些困难。例如,我明天不带口罩出门,感染新型冠状病毒肺炎的可能有多大?如果直接套用频率派的解释,我需要不带口罩出门很多次,不停地作实验,最后得到一个频率,作为概率的近似。这显然是不合理的。为了解释这类非重复事件,频率派需要借助“替代现实”的概念。“替代现实”可以理解为“平行世界”。在N个“平行世界”中,观察我明天出门是否得肺炎,统计我得肺炎的频率,当N趋于无穷大时,这个频率趋近于我明天出门得肺炎的概率。这样的一个概率是客观存在的,但是需要假想所谓的“平行世界”才能通过观测推断得到。可以看到,非重复事件发生的可能性很难用概率派的解释去自然地描述。
此时,贝叶斯派的解释就显得更为自然了。概率被解释为一种“信念”,即个人对此事件发生可能性的主观判断。这种解释避免了频率派解释中需要事件可重复的麻烦。概率即“信念”是可以根据观测到的事实进行修正的。先验概率是原先对事件的判断,后验概率是我在得到新的信息之后的判断。此时,事件的可能性并不是如频率派解释中那样是客观存在的,而是一种主观的判断。对于同样的事件,不同人的判断可能不一样。我可能认为我出门得肺炎得概率为0.3,而我妈可能认为是0.9。在贝叶斯派看来,这都是合理的,因为两人的先验判断和得到的信息不一样,得到的判断也会不一样。
记我明天出门会得肺炎这个事件为A。我在没有其他额外信息,仅基于我过去对肺炎的认知,我会对我明天出门得肺炎发生的可能性有一个初步的判断,这可以称之为先验概率。我可能认为我得肺炎的可能性不大。如果可能性的大小以0到1的数度量,我的”信念“可能是0.3。此时,先验概率P(A)=0.3。如果我今晚看新闻,发现我的小区已经发现了一例肺炎患者。假设这个事件为X,那么我对我是否会得肺炎的判断可能会发生变化,可能从0.3上升为0.5。那么根据我得到的新的信息X,或者说我观察到的事件X,我修正后的”信念“即后验概率为P(A|X)=0.5。
这样的“Belief信念”变化的过程比频率派的解释更符合我们日常的思维方式。频率派在对不能重复发生的事件的概率进行解释时,需要假想“平行世界”。

总结

无论是频率派还是贝叶斯派,其概率的解释都是对于世界的可能性的一种建模。二者对于可能性的理解有所不同。在频率派看来,事件发生的可能性是客观的,可以通过不停地观察重复事件的结果推断。在贝叶斯派看来,可能性是一种“信念”,是一种主观判断,可以通过不停地接收新的信息而更新。这两种解释看似矛盾,但在我看来这两种解释都是对可能性的合理建模,虽然适用范围可能稍有不同,却是相互统一的。虽然我无法虚构出多个“平行世界”观察我是否得肺炎,但我得肺炎的可能性应该是一种客观的存在。但是日常做决策时,我只能在我固有的偏见(先验概率)的基础上,通过得到的新信息得出一个主观的可能性判断。

参考文献

  1. 频率与概率
  2. 概率的频率解释和贝叶斯解释
  3. 频率和概率、平均值和期望值
posted @   郝hai  阅读(2133)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 分享4款.NET开源、免费、实用的商城系统
· 全程不用写代码,我用AI程序员写了一个飞机大战
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· 白话解读 Dapr 1.15:你的「微服务管家」又秀新绝活了
· 上周热点回顾(2.24-3.2)
点击右上角即可分享
微信分享提示