概率论基本知识

条件概率

离散情况

P(B|A)=P(AB)P(A)

^ff235e

[!tip] 推论

P(B|A)P(A)=P(A|B)P(B)=P(AB)

连续情况

fY|X(y|x)=f(x,y)fX(x)

条件期望和重期望

条件期望

E(X|Y=y)=xpX|Y(x|y)dx

重期望公式

E(X)=E(E(X|Y))=E(X|Y)P(Y)

全概率公式

P(A)=i=1nP(A|Bi)P(Bi)

^6c9cba

贝叶斯公式

在只有两个事件时

P(B|A)=P(A|B)P(B)P(A|B)P(B)+P(A|B¯)P(B¯)

在多个事件时

P(Bi|A)=P(A|Bi)P(Bi)i=1nP(A|Bi)P(Bi)

^322785

[!hint]- 证明
对条件概率公式![[#ff235e]]的分母使用一次全概率公式![[#6c9cba]]

切比雪夫不等式

P(|Xμ|k)σ2k2

数字特征

均值、方差、协方差

  1. 均值

    μ=EX=xf(x)dx

  2. 方差

    σ2=Var(X)=(xμ)2f(x)dx

  3. 复合随机变量的均值和方差

    E(g(X))=g(x)f(x)dx

    Var(g(X))=(g(x)E(g(x)))2f(x)dx

  4. 协方差

    Cov(X,Y)=E[(XμX)(YμY)]

    方差可以类似二项式展开,平方项用方差代替,乘积项用协方差代替。

    Var(aX+bY)=a2Var(x)+2abCov(X,Y)+b2Var(Y)

原点矩

vk=xkf(x)dx

零阶原点矩恒为 1

中心矩

μk=(xμ)kf(x)dx

零阶中心矩恒为 1

一阶中心矩恒为 0

由二项式定理,有

μk=i=0k(ki)vi(μ)ki

变异系数

Cv(X)=Var(X)E(X)=σμ

峰度系数

kurtosis=μ4σ43=E(Xμσ)4E(N)4

其中,NN(0,1)

偏度系数

skewness=μ3σ3=E(Xμσ)3

常见分布

离散分布

名称 记号 分布 均值 方差 特征函数
伯努利分布 B(1,p) pk(1p)1k p p(1p) pejt+1p
二项分布 B(n,p) (nk)pk(1p)nk np np(1p) (pejt+1p)n
几何分布 Ge(p) p(1p)k1 1p 1pp2 pejt1(1p)ejt
帕斯卡分布 NB(r,p) (k1r1)pr(1p)kr rp r(1p)p2 (pejt1(1p)ejt)r
超几何分布 H(N,n,M) (Mk)(NMnk)(Nn) nMN
泊松分布 pois(λ) eλλkk! λ λ eλ(jt1)

连续分布

名称 记号 概率密度函数 均值 方差 特征函数
均匀分布 U(a,b) 1ba,x[a,b] a+b2 (ba)212 ejtbejtajt(ba)
指数分布 Exp(λ) λeλt,x>0 1λ 1λ2 λλjt
正态分布 N(μ,σ2) 12πσexp((xμ)22σ2) μ σ exp(jtμ12σ2t2)
卡方分布 χ2(n) i=1nXi2,XiN(0,1) n 2n
t 分布 t(n) X1X2/n,X1N(0,1),X2χ2(N)
F 分布 F(m,n) X1/mX2/n,X1χ2(m),X2χ2(n)

多元正态分布

多元正态分布接受两个参数:均值向量 μ 和协方差矩阵 Σ,它的密度函数为

f(x;μ,Σ)=1det(2πΣ)exp(12(xμ)TΣ1(xμ))

其中

  • x是变量向量,维数是 d
  • μ是均值向量,维数是 d
  • Σ是正定对称矩阵,维数是 d×d

[!note]

  1. 注意,系数上的行列式,在计算时矩阵前方的系数实际上还要再做d次幂运算。
  2. 由于协方差矩阵是正定的,因此它一定是非奇异的。

特别地,随机变量 (X,Y) 服从二元正态分布,记作 (X,Y)N(μ1,μ2;σ12,σ22;θ)θ表示两个变量之间的相关系数。

从线性变换的角度看多元正态分布

零均值多元正态分布 N(0,Σ)可以看做标准多元正态分布 N(0,E) 做线性变换得到的,其中E是单位矩阵。

设随机变量向量 XN(0,E).

X 做倍乘变换再做正交变换 Y=BAXA是对角矩阵,且 A2=ΛB是正交矩阵,有 X=(BA)1Y,且BT=B1.

容易知道任意线性变换都可由BA表出。

经过倍增变换,协方差矩阵变为 Λ. 正交变换不改变协方差行列式的值。

代入概率密度公式,有

f(y)=12dπddet(Λ)exp(12((BA)1y)T(BA)1y))=12dπddet(Λ)exp(12yT(BΛ1B1)y)

根据线性代数知识 det(BA2B1)=det(Λ)1

根据对称矩阵的性质,只要协方差矩阵与Λ拥有相同的特征值(它的特征值即对角元),即可化为该形式。

因此可以得到结论,协方差矩阵的特征值决定随机变量的尺度,而均值向量决定随机变量的位置。

本节参考

知乎 - Xinyu Chen的回答

MATLAB官方文档

边际分布和多维随机变量的独立性

多维随机变量的分布函数,当其中的一个或几个变量趋于无穷后,可以得到剩余变量的联合边际分布函数。

以二维随机变量(X,Y)为例,其联合分布函数为F(x,y),则X的边际分布为

FX(x)=limy+F(x,y)

在离散场合,可以类似得到。

边际密度函数,只需要把上述的分布函数换成概率密度函数并相应积分,还是以二维随机变量为例

pX(x)=+p(x,y)dy

在涉及多维随机变量的积分时,要注意积分区域的确定。

多维随机变量的独立性

多维随机变量X1,X2,,Xn的联合分布函数为F(x1,x2,,xn),边际分布为Fi(xi),如果有

F(x1,x2,,xn)=i=1nFi(xi)

则称X1,X2,,Xn相互独立。

连续时,可以转化为密度函数

p(x1,x2,,xn)=i=1npi(xi)

由此可以知道独立的随机变量积的期望等于期望的积,即

E(XY)=E(X)E(Y)

在更多维度的条件下也可以给出类似的结论。

并且由上面的性质可以得到独立的随机变量一定不相关(协方差为 0),注意,反之不一定成立,独立是比不相关更强的条件。

卷积

卷积是计算两随机变量分布和的方法。

离散情况

P(X+Y=k)=i=+P(X=i,Y=ki)

连续情况

P(X+Y<t)=+f(s,ts)ds

X,Y 独立时,有

P(X+Y<t)=+f(s)g(ts)ds

卷积运算是一个算子,通过两个函数生成第三个函数,记作

(fg)(x)=+f(s)g(xs)ds

随机变量序列的两种收敛

假设随机变量序列{Xn}的分布函数序列为{Fn(x)}X为任意给定的随机变量。

依概率收敛

ϵ>0,limnP(|XnX|ϵ)=0

记作XnPX

按分布收敛

limnFn(x)=F(x)

记作XnLX

性质

依概率收敛强于按分布收敛。并且依概率收敛可以推出按分布收敛。

X服从退化分布时,二者是等价的,即

XnPcXnLc

特征函数

φ(t)=E(eitX)=eitxdF(x)

称为随机变量的特征函数。

常见分布的特征函数列在了上面的表格里。

特征函数有如下性质:

  1. |φ(t)|φ(0)=1
  2. φ(t)=φ(t)
  3. Y=aX+b,则

    φY(t)=eibtφX(at)

  4. 若随机变量X,Y独立,则

    φX+Y(t)=φX(t)φY(t)

  5. φ(0)(t)=ikE(Xk),可以通过这个性质求随机变量的各阶原点矩(如果存在),进而求出中心矩。
  6. 特征函数和分布函数相互唯一确定。

大数定律

大数定律告诉我们在伯努利实验中频率依概率收敛到概率,即频率的回归性。同时也提供了经验分布函数和矩估计的理论依据。

大数定律的形式

假设{Xn}为一组期望存在的随机变量序列,X为它们的平均数。有

XP1ni=1nE(Xi)

或按书本上的形式

limnP(|1ni=1nXi1ni=1nE(Xi)|<ε)=1

几个大数定律的前提

  1. 伯努利大数定律

    {Xn}独立同分布且服从两点分布B(1,p)

    此时大数定律表述为

    XPp

    也就是说,频率依概率收敛到概率(在伯努利实验中,平均数就是实验成功的频率)。

  2. 切比雪夫大数定律

    {Xn}两两不相关,每个Xi的方差存在。

  3. 马尔可夫大数定律

    limn1n2Var(i=1nXi)=0

  4. 辛钦大数定律

    Xi独立同分布,假设它们的数学期望为EX,那么大数定律又可以表述为

    XPEX

辛钦大数定律

由辛钦大数定律可以得出,如果独立同分布的随机变量序列{Xn}的k阶原点矩存在,那么随机变量序列{Xnk}也服从大数定律。在数理统计中,这给了我们矩估计的理论依据。

中心极限定理

中心极限定律告诉我们独立随机变量和的分布收敛于正态分布。

多个误差的叠加可以认为服从正态分布,因此,正态分布是很多统计方法中的先验分布。

林德伯格-莱维中心极限定理

如果随机变量序列{Xn}独立同分布,EXi=μ,VarXi=σ2,记

Yn=i=1n(Xiμ)nσ

YnLN,NN(0,1)

棣莫弗-拉普拉斯中心极限定理

XnB(n,p),q=1p,记

Yn=Xnnpnpq

YnLN,NN(0,1)

棣莫弗-拉普拉斯中心极限定理是林德伯格-莱维中心极限定理的一个特殊情况,但是非常重要,因为它告诉我们当n足够大时,可以用来正态分布近似计算二项分布(当n很大时,计算是非常困难的,因为涉及到n的阶乘和n的指数运算)。

教科书的经验公式提出

  1. p较小时,用泊松分布近似较好
  2. np>5,nq>5时,用正态分布近似较好

林德伯格中心极限定理

如果独立的随机变量序列{Xn}满足林德伯格条件,那么

1Bi=1n(Xiμi)LN,NN(0,1)

其中

  1. B=i=1nVar(Xi)
  2. μi=EXi

由于林德伯格条件比较繁杂,而且在实际的应用上较难验证,在此不赘述,感兴趣的读者可以移步至MathWorld查看。

李雅普诺夫中心极限定理

δ>0,s.t.

limn1B2+δi=1nE(|Xiμi|2+δ)=0

1Bi=1n(Xiμi)LN,NN(0,1)

其中

  1. B=i=1nVar(Xi)
  2. μi=EXi

这两个有关非同分布的中心极限定理理论指导意义比较大,而(在本科阶段)应用较少。


  1. https://zhuanlan.zhihu.com/p/36270529 ↩︎

posted @   Kengroo  阅读(39)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix

本人发布的博客,文章等,如无特别说明,皆使用 Creative Commons Attribution-NonCommercial-ShareAlike 4.0 许可证 发布

CC BY-NC-SA 4.0

点击右上角即可分享
微信分享提示