Loading [MathJax]/jax/output/CommonHTML/autoload/multiline.js

常见的概率分布

1. 离散型分布

1.1 两点分布(伯努利分布/贝努利分布/0-1分布)

称随机变量 XX 服从参数为 pp 的伯努利分布,如果它分别以概率 pp1p1p 取 1 和 0 为值。​

P(X=k)=pk(1p)1k,k=0,1XB(1,p)E(X)=pD(X)=p(1p)

1.2 二项分布

n次独立的伯努利试验。如果事件发生的概率是 p,n次独立重复试验中发生k次的概率是(有放回抽样)

P(X=k)=Cknpk(1p)nk,k=0,1,...,nXB(n,p)E(X)=npD(X)=np(1p)

n 件产品,其中 m 件次品 (m<n),从中不放回地任意抽取 k 件产品和有放回地任意抽取 k 件产品,在这两种抽取方法中每次抽出次品的概率相同,都为 mn,抽得次品数的期望值也相同,都为 kmn,但抽到的次品数的分布列不同,方差不同(超几何分布与二项分布)

关于为什么不放回抽样每次抽出次品的概率相同,见文末

1.3 几何分布

在n次伯努利试验中,试验k次才第一次成功的概率。几何分布是帕斯卡分布当 r=1 时的特例

P(X=k)=(1p)k1p,k=1,2,...XGE(p)E(X)=1pD(X)=1pp2

例:某产品的合格率为0.05,则首次查到不合格品的检查次数 XGE(0.05)

1.4 帕斯卡分布(负二项分布)

在重复独立的伯努利试验中,设每次试验成功的概率为 p,若将试验进行到出现 r (r 为常数) 次成功为止,以随机变量 X 表示所需试验次数,

P(X=k)=Cr1k1pr(1p)kr,k=r,r+1,...E(X)=rp

(当 r 是整数时,负二项分布又称帕斯卡分布)

1.5 超几何分布

从 N 个物件中抽出 n 个物件,成功抽出指定种类的物件的次数(不放回抽样)。

XH(N,M,n)

产品抽样检查中,假定在 N 件产品中有 M 件不合格品,即不合格率为 MN,在产品中随机抽 n 件进行检查,发现 k 件不合格品的概率为

P(X=k)=CkMCnkNMCnN,k=0,1,...,min{n,M}E(X)=nMND(X)=nMN(1MN)NmN1

1.6 泊松分布

泊松分布适用于描述单位时间内随机事件发生的次数,泊松分布的参数 λ 是单位时间内随机事件的平均发生次数。

P(X=k)=λkk!eλ,k=0,1,...E(X)=λD(X)=λ

特征函数:Ψ(t)=exp{λ(eit1)}

2. 连续型分布

2.1 均匀分布 U(a,b)

密度函数:

f(x)={1ba,a<x<b0,

分布函数:

F(x)={0,x<axaba,ax<b1,xb

期望和方差:

E(X)=a+b2D(X)=(ba)212

2.2 指数分布 E(λ)

f(x)={λeλx,x>00,

F(x)={0,x<01eλx,x0

E(X)=1λD(X)=1λ2

2.3 正态分布 N(μ,σ2)

f(x)=12πσe(xμ)22σ2,<x<+F(x)=12πσxe(tμ)22σ2dt

E(X)=μD(X)=σ2

一般来说,正态分布的密度曲线是以为中心,在 μ 的两侧呈对称的形状,曲线的形状像一个钟的剖面,故称为钟形曲线。 σ 越大,密度曲线的峰度越低; σ 越小,密度曲线的峰度越高。无论参数 μσ 取何值,密度曲线下所覆盖的面积均于 1。 正态分布的密度曲线见图 1.4 。

正态分布曲线下,位于μ±σ,μ±2σ,μ±3σ 之间的面积分别约占总面积的 68.26%,95.45%, 99.73%, 如 图 1.5 所示 。

当总体概率分布为正态分布时,作为从中抽出的样本,其统计量的样本概率分布有卡方分布,t分布,F分布等。因此正态分布成为计量经济学乃至统计学中最重要的概念之一。

2.4 χ2分布

如果从标准正态分布 N(0,1) 的总体中得到 n 个独立的随机变量分别为 X1,X2,...,Xn,则由 ni=1X2i 得到的分布称作自由度为 n 的 χ2 分布,记为 Xχ2(n).

期望和方差:

E(X)=nD(X)=2n

χ2 分布的加法定理. 设 X1,X2,...,Xk 是相互独立的随机变量,且 Xiχ2(ni),i=1,2,...,k,则

ki=1Xiχ2(n1+n2+...+nk).

χ2分布与 N(0,1) 分布之间有如下关系:

X1,X2,...,Xn 是相互独立的随机变量,并且 XiN(0,1),i=1,2,...,n,则

ni=1X2iχ2(n).

2.5 t分布

设随机变量 XN(0,1),Yχ2(n),X 与 Y 相互独立,则随机变量

t=XY/n

遵从自由度为n的t分布,记为 t=XY/nt(n).

期望和方差:

当n>2时,E(t)=0,D(t)=nn2.

当n<30时,t分布的分散程度比标准正态分布大,密度函数曲线比较平缓,随着n的增大,t分布逐渐接近标准正态分布;当 n时,t分布渐进标准正态分布

t分布可用于方差未知时对有关均值的假设进行检验。关于回归系数的显著性检验就用到 t分布。

2.6 F分布

设随机变量 Xχ2(n1),Yχ2(n2),且X与Y相互独立,则称随机变量

F=X/n1Y/n2

遵从自由度为 (n1,n2) 的F分布,记作 FF(n1,n2).

F分布的形状为正偏态分布,随着 n1,n2 的增大,其概率密度曲线的偏斜度虽有所减缓却仍保持偏态分布,并不以正态分布为其极限分布形式。

如果 tt(n),则 t2F(1,n)
如果 FF(n1,n2),则 1FF(n2,n1).

F分布在回归方程的显著性检验中具有重要作用

3. 补充:关于不放回抽样

为什么不放回抽样每次抽到次品的概率都是 mn,因为不放回抽样,每次抽样,都是与前些次的抽样相关的,从相关性上,前面的人抽中,与抽不中,对后面都有影响,但是这种影响又相互抵消。

例如,有 10 件产品,其中 3 件次品,7件正品,不放回的取,求第3次取得次品的概率。应用全概率公式:

同理计算可得,第一次取得次品的概率与第二次取得次品的概率都是 310
这就叫抽签原理

n个签,其中有m个是“上”签,第一个人抽到“上”签的概率是m/n,第k个人抽到“上”签的概率也是m/n
前提是:每个人都不知道前面人的抽签结果,如果知道的话,就不是这样了
这也就说明了抽签先后顺序是不影响概率的,是公平的


参考:
https://blog.csdn.net/IMWTJ123/article/details/79979120
https://blog.csdn.net/holly_Z_P_F/article/details/107556675

posted @   qypx  阅读(347)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 清华大学推出第四讲使用 DeepSeek + DeepResearch 让科研像聊天一样简单!
· 推荐几款开源且免费的 .NET MAUI 组件库
· 实操Deepseek接入个人知识库
· 易语言 —— 开山篇
· Trae初体验
点击右上角即可分享
微信分享提示