概统期中复习

第一章

概率的公理化

样本空间 S,事件集合 FS 的一个子集族,满足 SFAFAFAiFiAiF

概率是满足 P(S)=1(规范性)的测度,要求 P(A)0(非负性),AiAj=P(iAi)=iP(Ai)(可列可加性)。

(S,F,P) 称为概率空间。有限可加不等价于可列可加,反例:S=[0,)Ai=[i1,i)P(A)=limkλ(A(0,k))λ 表示交集长度。

条件概率

P(A)P(B|A)=P(AB)P(B|A) 表示已知 A 发生时 B 发生的概率。

贝叶斯公式

AiAj=,则 P(Ai|B)=P(Ai)P(B|Ai)P(B)=P(Ai)P(B|Ai)jP(Aj)P(B|Aj)

独立事件

P(AB)=P(A)P(B)A,B 独立。A,B 独立则其补集之间也独立。

相互独立:对于任意事件子集 U,都满足 P(UA)=UP(A)。相互独立,也可以把 Ai 换为补集。

第二章

离散随机变量

  • 两点分布:P(X=0)=1p,P(X=1)=p

    二项分布:n 个两点分布(伯努利试验)中 1 的个数,P(X=k)=(nk)pk(1p)nkXB(n,p)

    P(X=k) 最大值取在 (n+1)p

  • 泊松分布:P(X=k)=eλλkk!Xπ(λ)

    P(X=k) 最大值取在 λ

    可以看成二项分布 n,pλ/n 的结果。

    有可加性,两个独立的 π(u)+π(v)=π(u+v)

  • 几何分布:重复伯努利试验直到事件发生,此时失败次数的分布。P(X=k)=p(1p)kXG(p)

    负二项分布(帕斯卡分布):重复伯努利试验直到事件发生 r 次,此时失败次数的分布。P(X=k)=(k+r1r1)pr(1p)kXNB(r,p),这里 G(p)=NB(1,p)

    无记忆性:XG(p)P(X>m+n|x>n)=P(X>m)

连续随机变量

分布函数 F(x)=P(Xx):非负单调右连续。

概率密度函数:若存在概率密度函数 f(非负,归一)满足 F(x)=xf(x)dx,则称为连续随机变量。

f 连续,则 F=f

  • 均匀分布 U(a,b)

  • 指数分布:概率密度为 f(x)={λeλx,x00,x<0XExp(λ)

    无记忆性:XExp(λ)P(X>m+n|X>n)=P(X>m)

    可以看成几何分布的极限:n 次伯努利试验,n,pλ/n,期望成功时间。

  • Γ 分布:概率密度为 f(x)={xα1λαeλx/Γ(α),x00,x<0XΓ(α,λ)

    Exp(λ) 就是 Γ(1,λ)。对于正整数 nΓ(n)=(n1)!Γ(α)=0+xα1exdx

    可以看成负二项分布分布的极限:n 次伯努利试验,n,pλ/n,期望成功 α 次时间。

    可以看成 Γ 函数定义中换元 x=λx 的结果。

  • 正态分布(高斯分布):概率密度为 f(x)=12πσe(xμ)2/(2σ2)XN(μ,σ2)

    N(0,1)(标准正态分布)分布函数称为 Φ

  • χ2 分布:χ2(n)=Γ(n2,12),概率密度为 f(x)={12n/2Γ(n/2)xn/21ex/2,x00,x<0

    XN(0,1),则 X2χ2(1)。若 n 个独立随机变量 XiN(0,1),则 iXiχ2(n)

    χ2(n) 密度函数积分为 1 是一个常用公式:

    0xtex/2dx=2t+1Γ(t+1)

密度变换公式

X 密度为 fX(x)g(x) 严格单调,反函数 h(y) 导数连续,则 Y=g(X) 的密度为

fY(y)=fX(h(y))×|h(y)|

证明考虑分布函数求导。

第三章

边缘分布、条件分布

离散型随机向量 (X,Y) 边缘分布 pi=P(X=xi)。条件分布 P(X=x|Y=y)=P(X=x,Y=y)P(Y=y)

分布函数:F(x)=P(Xx)

连续性随机向量 (X,Y) 边缘分布 FX(x)=F(x,)。条件分布 FX|Y(x|y)(确定 Y=yX 的分布)为 limϵ0+Xx,y<Y<y+ϵP(y<Y<y+ϵ),也就是右侧取极限。

联合概率密度:若存在概率密度函数 f(非负归一)满足 F(x)=xf(x)dx,则 x 称为连续随机向量。若 f 连续,则 F=f(对每一维依次求偏导)。

边缘概率密度可以用联合概率密度在某维积分表示。若边缘概率密度连续且 >0,则条件概率密度可以写成联合密度除以边缘密度。

二元正态分布(!!!)

随机向量 (X,Y) 密度函数为

f(x,y)=12πσ1σ21ρ2exp(12(1ρ2)((xμ1)2σ12+(yμ2)2σ222ρ(xμ1)(yμ2)σ1σ2))

称服从 N(μ1,μ2,σ12,σ22,ρ)

X,Y 分别服从 N(μ1,σ12)N(μ2,σ22)

Y=y 时,XN(μ1+ρσ1σ2(yμ2),(1ρ2)σ12)

独立性

FX(x)FY(y)=F(x,y) 总成立,则 X,Y 独立。若 f(x,y)=fX(x)fY(y) 几乎处处成立(除去面积为 0 的区域),则 X,Y 独立。

多元随机变量:若 F(x1,,xn)=FX1(x1)FXn(xn),则称 x1,,xn 相互独立,强于两两独立。这里,x1,,xn 也可以是随机向量。

X,Y 相互独立,则 f(X),g(Y) 也相互独立。

卷积公式

和的分布可以用卷积公式:(X,Y) 服从 f(x,y),则 Z=X+Y 密度为 fZ(z)=f(x,zx)dx

常用结论:

  • B(n,p)+B(m,p)=B(m+n,p)

  • π(n)+π(m)=π(n+m)

  • NB(n,p)+NB(m,p)=NB(m+n,p)

  • Γ(n,λ)+Γ(m,λ)=Γ(n+m,λ)

  • χ2(n)+χ2(m)=χ2(n+m)

    上述都可以结合组合意义理解。

  • N(μ1,σ12)+N(μ2,σ22)=N(μ1+μ2,σ12+σ22)

    独立正态分布的线性组合还是正态分布。

商分布公式

(X,Y) 服从 f(x,y),则 Z=X/Y 密度为 fZ(z)=|y|f(yz,y)dy

例:已知 XN(0,1)Yχ2(n)X,Y 独立,求 Z=X/Y/n 密度。

解:Y 密度为

fY(y)={12n/2Γ(n/2)yn/21ey/2,y00,y<0

所以 Y=Y/n 密度为(反函数 Y=nY2

fY(y)={12n/2Γ(n/2)(ny2)n/21eny2/2×2ny,y00,y<0

由此得 Z=X/Y 密度为

fZ(z)=|y|f(yz,y)dy=02ny212n/2Γ(n/2)(ny2)n/21eny2/2×12πey2z2/2dy=2nn/22n/2Γ(n/2)2π0yney2(z2+n)/2dy=2nn/22n/2Γ(n/2)2π(z2+n)n/20tn/2et/2dy (t:=y2(z2+n))=nn/22n/2Γ(n/2)2π(z2+n)(n+1)/20t(n1)/2et/2dt (dy=12t1/2(z2+n)1/2dt)=nn/22n/2Γ(n/2)2π(z2+n)(n+1)/22(n+1)/2Γ((n+1)/2)=Γ((n+1)/2)nn/2Γ(n/2)π(z2+n)(n+1)/2

点评:这里用到了 χ2 分布积分公式。

min max 分布公式

对于 n 个独立随机变量,max 的分布函数为每个变量分布函数之积,min 分布函数为 1i(1FXi(x))

密度变换公式

设连续随机向量 X 的密度为 fX(x)g(x) 有连续偏导数且反函数 h(y) 连续,则 g(X) 的概率密度为 fY(y)=fX(h(y))×|J(y)|J(y)hy 处的 Jacobi 行列式,也即 Jjk=hj(y)/yk

例:已知 X,Y 独立服从 N(0,1),求 (X,Y) 的极坐标 (r,θ) 的概率密度。

解:直接套用密度公式得 fR,θ(r,θ)=12πrer2/2

点评:这也说明 r,θ 独立。

例:已知 X,Y 独立服从 N(0,1),求 X/Y 的分布。

解:设 (z,w)=g(x,y)=(x/y,y),则 x=zw,y=w。利用密度变换公式得

fZ,W(z,w)=fX,Y(zw,w)×|J(z,w)|=|w|2πe(z2w2+w2)/2

fZ(z)=\R|w|2πe(z2w2+w2)/2dw=1π0+wew2(z2+1)/2dw=1π(z2+1)

点评:此分布称为柯西分布。

例:设 Z1,Z2N(0,1),则 (X1=aZ1+bZ2+μ1,X2=cZ1+dZ2+μ2) 服从什么分布?

解:服从 N(μ1,μ2,σ12,σ22,ρ),其中 σ1=a2+b2,σ2=c2+d2,ρ=ac+bdσ1σ2

点评:若 X,Y 服从二元正态分布,则其线性组合也服从二元正态分布。已知是正态分布的话,σ1,σ2,ρ 都可以用方差、相关系数的定义算出。

例:给定一个 U(0,1) 随机数生成器,用它生成符合给定分布 F(x) 的变量 X

解:X=F1(y),其中 YU(0,1)

例:生成单位圆内均匀分布的点。

解:考虑极坐标。θ 显然均匀分布,计算易得 r 服从满足 FR(r)=r2 的分布。

例:生成 k 维单位球面内均匀分布的点。

解:先生成 k 个独立 N(0,1) 再归一化。

第四章

期望

设离散型随机变量 X 分布为 pi=P(X=xi),若 xi 只有有限个或 ipixi 绝对收敛,则称期望存在,记为 E(X)=ipixi

常见离散型随机变量期望:

  • XB(n,p)E(X)=np
  • Xπ(λ)E(X)=λ
  • XNB(r,p)E(X)=r(1p)/p

X 为非负整数,则 E(X)=n1P(Xn)

设离散型随机变量 X 密度为 f(x),若 xf(x)dx 绝对收敛,则称期望存在,记为 E(X)=xf(x)dx

常见连续型随机变量期望:

  • XU(a,b)E(X)=(a+b)/2
  • XExp(λ)E(X)=1/λ
  • XΓ(α,λ)E(X)=α/λ
  • XN(μ,σ2)E(X)=μ
  • X 服从柯西分布 f(x)=1π(x2+1),则 E(X) 不存在。

若分布函数为 F(x),则 E(X)=0(1F(x))dx0F(x)dx

设离散型随机变量 X 密度为 f(x),则 g(x) 期望为 E(g(x))=f(x)g(x)dx

期望有线性性。若 Xi 相互独立,则 E(iXi)=iE(Xi)

例:设 XN(0,1),求 E(X2)

解:考虑 YN(0,1)X,Y 独立,求 E(X2+Y2) 再转到极坐标。

方差

x=E(X) 时,E((Xx)2) 最小,称 E((XE(X))2)X 的方差 D(X)Var(X),标准差 σ(X)=D(X)D(X)=E(X2)E(X)2

常见随机变量期望:

  • XB(n,p)D(X)=np(1p)
  • Xπ(λ)D(X)=λ
  • XNB(r,p)D(X)=r(1p)/p2
  • XU(a,b)D(X)=(ba)2/12
  • XΓ(α,λ)D(X)=α/λ2
  • XN(μ,σ2)D(X)=σ2

D(cX+d)=c2D(X)。对于相互独立随机变量 XiD(iXi)=iD(Xi)。设 X 为任意随机变量,则 Y=(XE(X))/σ(X)(称为 X 的标准化)总具有均值 0 和方差 1。

协方差和多元正态分布

定义协方差 Cov(X,Y)=E((XE(X))(YE(Y)))=D(X+Y)D(X)D(Y)=E(XY)E(X)E(Y),因此 D(iXi)=iD(Xi)+2i<jCov(Xi,Xj)。定义相关系数 ρX,Y=Cov(x,y)/D(X)D(Y)

协方差是双线性函数,相关系数就是 X,Y 标准化后的协方差。

例:证明 |ρXY|1,并且 |ρXY=1|a,b,c,P(aX+bY+c=0)=1

解:不妨假设 E(X)=E(Y)=0,根据柯西不等式

ρXY2=E(XY)2E(X2)E(Y2)1

只需证 |ρXY=1|a,b,P(Y=aX+b)=1。将 a 视为变量,则

E((YaX)2)=a2E(X2)2aE(XY)+E(Y2)

因为 ρXY=1,所以 E(XY)2=E(X2)E(Y2),所以 E((YaX)2)=(aE(X2)E(Y2))2,当 E(X2)E(Y2)0 时一定有零点,取该 a 即可,否则是边界情况,也是显然的。

X,Y 不线性相关,当且仅当下面任意一条(这三条等价)满足:

  • Cov(X,Y)=0
  • E(XY)=E(X)E(Y)
  • D(X+Y)=D(X)+D(Y)

独立则不线性相关,反之不然。对于正太分布变量,线性相关等价于不独立。

随机变量 Xk 阶矩为 E(Xk),中心矩为 E((XE(X))k)。三阶矩叫“偏度”,四阶矩叫“峰度”。X,Yk+l 阶混合矩为 E(XkYl),中心矩为 E((XE(X))k(YE(Y))l)。设 XN(0,1),则 E(X2k)=(2k1)×(2k3)××1E(X2k1)=0 (k\Z+)

X 为随机向量,则 B=E((XE(X))(XE(X)))X 的协方差矩阵。

例:证明 B 一定半正定。

解:α,αBα=E((α,X)2)0

给定可逆协方差矩阵 B 和向量 μ,多元正态分布概率密度可写为

f(x)=1(2π)n/2|B|1/2exp(12(xμ)B1(xμ))

多元正态分布的边缘分布、线性组合都是正态分布,设 XN(μ,B),则 AX+bN(Aμ+b,ABA)。若 B=E,则称为 n 维标准正态分布。所有多元正态分布都是标准正态分布的线性组合:任意半正定矩阵 B 都可以写成 B=AA 的形式,故 XN(μ,B) 说明 X=AZ+μ,其中 Z 服从 n 维标准正态分布。换句话说,多元正态分布总能通过合理线性组合变独立,这有时方便计算。

例:设 (X1,X2)N(0,0,1,1,1/2)。求 E(X12X22)

解:先求 a 使得 X1aX2X2 独立,根据正态分布的性质,只需 Cov(X1aX2,X2)=0,也即 Cov(X1,X2)aD(X2)=0,得 a=12。令 Z=X1aX2,则 D(Z)=3/4,故 ZN(0,3/4)。因此

E(X12X22)=E(Z2X22+ZX23+X24/4)=E(Z2)E(X22)+E(Z)E(X23)+E(X24)/4=3/2

第五章

特征函数

对于随机变量 X,令 RC 的函数 ψX(t)=E(eitX) 为其特征函数。

常见分布特征函数:

  • 退化分布 P(X=x)=1ψX(t)=eitx
  • Xπ(λ)ψX(t)=eλ(eit1)
  • XN(0,1)ψX(t)=et2/2

特征函数的性质:

  • aX+b 特征函数为 ψ(t)=eitbψX(at)
  • Xi 相互独立,则 Xi 特征函数为 ψ(t)=iψXi(t)
  • X 存在 k 阶矩,则 E(Xk)=(i)kψX(k)(0)

唯一性定理:随机变量的分布函数由特征函数唯一决定。

大数定律

定义

设随机变量 X 和一列随机变量 Xi 满足

ϵ>0,limnP(|XnX|<ϵ)=1

则称 Xn 依概率收敛于 X,记作 XnPX (n)。若 XnPX,YnPYg 连续,则 g(Xn,Yn)Pg(X,Y)

设一列随机变量 Xi 和一列固定常数 ai 满足

ϵ>0,limnP(|an1ni=1nXi|<ϵ)=1

则称 Xi 服从大数定律。

例:设 Xi 两两独立,都服从柯西分布(密度 f(x)=1π(1+x2))。证明不存在常数 c 使得 1ni=1nXiPc

解:容易算得 1ni=1nXi 也服从柯西分布,故显然不能依概率收敛到常数。

设随机变量 X 和一列随机变量 Xi 满足

P(limnXn=X)=1

则称 Xn 几乎必然收敛于 X,记作 Xna.s.X (n)

An(ϵ)={|XnX|ϵ},则几乎必然收敛的定义等价于 ϵ>0,limnP(m=nAm(ϵ))=0。而依概率收敛的定义等价于 ϵ>0,limnP(An(ϵ))=0。两者区别类似于,后者只要求某个序列 0,而前者要求这个序列后缀和也 0。所以几乎必然收敛则一定依概率收敛(可以用定义验证),反之不然。例如,XnB(1,1/n) 且相互独立,则 XnPB(1,0),但列式即知 Xn 不几乎必然收敛于 B(1,0)

设分布函数为 FX(x) 的随机变量 X 和一列分布函数为 FXi(x) 的随机变量 Xi 满足,若 FX(x)x0 处连续,则

limnFXn(x0)=FX(x0)

则称 FXi(x) 弱收敛于 FX(x)Xi 依分布收敛于 X,记作 XndX (n)

依概率收敛则依分布收敛,反之不然,因为分布相同具体取值可以不同。若收敛到常数,则依分布收敛等价于依概率收敛。

连续性定理:FXi(x) 弱收敛于 FX(x) 等价于特征函数 ψXi(x) 逐点收敛于 ψX(t)

几个不等式

马尔科夫不等式:设 E(|X|k) 存在,则对于 ϵ>0P(|X|ϵ)E(|X|k)/ϵk

切比雪夫不等式:设 E(X),D(X) 存在,则对于 ϵ>0P(|XE(X)|ϵ)D(X)/ϵ2

Hoeffding 不等式:设 X[a,b]E(X) 存在,则对于 ϵ>0P(XE(X)ϵ)exp(2ϵ2/(ba)2)P(XE(X)ϵ)exp(2ϵ2/(ba)2)

证明:将第一个不等式中 XX 即得到第二个不等式,下面只证第一个。不妨假设 E(X)=0。取 t>0,则 P(Xϵ)etϵE(etX)

由于 X[a,b],所以由 etx 凸性得 E(etX)bE(eta)aE(etb)ba。定义 φ(t)=lnbE(eta)aE(etb)ba,对其求导可知 φ(0)=0,φ(0)=0,φ(t)(ba)2/4。因此由带拉格朗日余项泰勒展开知 φ(t)t2(ba)2/8。因此 E(etXexp(t2(ba)2/8))。因此上式 et2(ba)2/8tϵ,取 t=4ϵ/(ba)2 即得。

弱大数定律

依概率收敛下的大数定理为弱大数定律。

  • 切比雪夫大数定律:设 Xi 两两独立(注意不用相互独立),Xi 方差有界 M,则 inXi/nPinE(Xi)/n
    证明:根据切比雪夫不等式,

    P(|1ninXi1ninE(Xi)|ϵ)D(1ninXi)ϵ2=i=1nD(Xi)n2ϵ2Mnϵ20

  • 马尔可夫大数定律:设 Xi 满足 limn1n2i=1nD(Xi)=0,则 inXi/nPinE(Xi)/n
    证明:同上。切比雪夫不等式就是用两两独立和方差有界保证了要求的极限为 0。
  • 辛钦大数定律:设 Xi 相互独立同分布,存在期望 μ=E(Xi),则 inXi/nPμ
    证明:由题可知 Xi 特征函数存在导数且 ψXi(t)=ψXi(0)+ψXi(t)+o(t)=1+iμt+o(t)。令 An=inXi/n,则 ψAn(t)=k=1nψXk(t/n)=(1+iμt/n+o(t/n))n。令 nψAn(t)eitμ,此即为退化分布 X=μ 特征函数。根据连续性定理,Andμ,而依分布收敛于常数等价于依概率收敛于常数,证毕。

强大数定律

几乎必然收敛下的大数定理为强大数定律。

  • 四阶矩有界的强大数定律:设 Xi 相互独立,存在期望、四阶矩,四阶矩有界 M。记 Sn=inXi,则 (SnE(Sn))/na.s.0
    证明:不妨设 E(Xi)=0。记 An={|Sn/n|ϵ},只需验证 P(m=nAm)0。由马尔可夫不等式

    P(m=nAm)m=nP(Am)m=nE(Sm4)m4ϵ4

    注意到 E(Sm4)=i,j,k,lmE(XiXjXkXl)。若 Xi,Xj,Xk,Xl 中有只出现一次的,则根据独立性期望为 0,所以只有 E(Xi4)E(Xi2Xj2) 有贡献,因此

    i,j,k,lmE(XiXjXkXl)=imE(Xi4)+(42)i<jmE(Xi2Xj2)imE(Xi4)+(42)i<jmE(Xi4)E(Xj4)O(m2M)

    因此

    P(m=nAm)m=nO(m2M)m4ϵ4=m=nO(m2)0

  • Kolmogorove 强大数定律:设 Xi 相互独立同分布,存在期望 μ,记 Sn=inXi,则 Sn/na.s.μ
    这也是最常用的强大数定律,不会证。

中心极限定理

Lindeberg-Lévy 定理:设 Xi 相互独立同分布,存在期望 μ 方差 σ2,记 An=(i=1n(Xiμ))/(nσ),则 AndN(0,1)

证明:不妨假设 μ=0,根据特征函数的性质,ψXi(t)=ψXi(0)+ψXi(t)+ψXi(t)t2/2+o(t2)=1σ2t2+o(t2)。因此 ψAn(t)=(ψXi(t/(nσ)))n=(1t2/2n+o(t2/n))net2/2,此即为 N(0,1) 特征函数,由连续性定理得证。

这个定理告诉我们,对独立同分布的 Xi 以及较大的 nAn=1ninXi 可以大概认为是 N(μ,σ2/n),再结合标准正态分布的分布函数表,就可以估计 P(An[a,b]) 或类似概率。

posted @   tianbu  阅读(205)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 一套基于 Material Design 规范实现的 Blazor 和 Razor 通用组件库
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)
点击右上角即可分享
微信分享提示