All of statistics 预习笔记

Chapter 1

  • 一个概率函数 P 是一个从全体事件集合 ΩR 的映射,满足:

    1. A, P(A)0
    2. P(Ω)=1
    3. 对任意两两不相交的事件集合 A1,A2,,AkP(i=1kAi)=i=1kP(Ai)
  • 称两事件 A,B 互相独立,当且仅当 P(AB)=P(A)P(B)

  • A,B 为两事件,其中 P(B)>0,则定义条件概率 P(A|B)=P(AB)P(B),其实际含义为已知 B 发生时 A 发生的概率。

  • A1,A2,,AkΩ 的一组划分,则对任意事件 B,都有 P(B)=i=1kP(B|Ai)P(Ai)

  • Bayes 公式:若 A1,A2,,AkΩ 的一组划分,满足 1ik,P(Ai)>0B 为一满足 P(B)>0 的事件,则 P(Ai|B)=P(B|Ai)P(Ai)jP(B|Aj)P(Aj)

Chapter 2

  • 对于随机变量 X,定义其 CDF FX(x)=P(Xx)

  • F 为一 R[0,1] 的映射,则 F 是某随机变量的 CDF 当且仅当:

    1. x1<x2,F(x1)F(x2)
    2. limxF(x)=0,limx+F(x)=1
    3. x,F(x)=F(x+)
  • 称一随机变量 X 为离散型随机变量,当且仅当其可能的取值只有有限种或者可数无穷多种。对离散型随机变量而言,定义其 probability mass function fX(x)=P(X=x)

  • 称一随机变量 X 为连续型随机变量,当且仅当存在函数 fX(x),满足 +fX(x)dx=1,且 ab,都有 P(a<X<b)=abfX(x)dx。这一函数 fX(x) 被称为其 probability density function。xR,都有 fX(x)=FX(x)

  • 常见的离散型概率分布:

    • 点质量分布(point mass distribution):随机变量 Xδa,当且仅当 P(X=a)=1,此时其 CDF 为 F(x)={0x<a1xa
    • 离散均匀分布(discrete uniform distribution):称随机变量 X 服从 {1,2,3,,k} 上的离散均匀分布,当且仅当 P(X=i)=1k(i{1,2,3,,k})
    • 伯努利分布(Bernoulli distribution):给定参数 p[0,1],随机变量 XBernouli(p),当且仅当 P(X=1)=p,P(X=0)=1p,其中 p[0,1]
    • ‌二项分布(binomial distribution):给定参数 n0,p[0,1],随机变量 XBinomial(n,p),当且仅当 P(X=x)=(nx)px(1p)nx,其中 0xn,其组合意义为掷 n 次正面朝上概率为 p 的硬币,正面朝上的次数的概率分布。伯努利分布可以视作 n=1 的二项分布。若 X1Binomial(n1,p),X2Binomial(n2,p),则 X1+X2Binomial(n1+n2,p)
    • 几何分布(geometric distribution):给定参数 p[0,1],随机变量 XGeom(p),当且仅当 P(X=k)=p(1p)k1,其中 k1。其组合意义为掷正面朝上概率为 p 的硬币,第一次掷到正面的时刻的概率分布。
    • 泊松分布(poisson distribution):给定参数 λ,随机变量 XPoisson(λ),当且仅当 P(X=x)=eλλxx!。若 X1Poisson(λ1),X2Poisson(λ2),则 X1+X2Poisson(λ1+λ2)
  • 常见的连续性概率分布:

    • 均匀分布(uniform distribution):对于 [a,b] 上的均匀分布,其概率密度函数满足 f(x)=1ba,其中 x[a,b]

    • 正态分布(normal distribution):给定参数 μ,σ,若 X 服从期望为 μ,方差为 σ2 的正态分布,则其概率密度函数满足 f(x)=1σ2πexp(12σ2(xμ)2),记作 XN(μ,σ2)

      μ=0,σ=1 的正态分布为标准正态分布。若 X 服从期望为 μ,方差为 σ2 的正态分布,则 Xμσ 服从标准正态分布。若 XiN(μi,σi2),则 i=1nXi(i=1nμi,i=1nσi2)

    • ‌指数分布(exponential distribution):给定参数 β>0,若 XExp(β),则其概率密度函数 f(x)=1βexβ,其中 x>0

    • Gamma 分布(Gamma distribution):给定参数 α,β>0,若 XGamma(α,β),则其概率密度函数 f(x)=1βαΓ(α)xα1exβ,其中 Γ(α)=0yα1eydy

    • Beta 分布(Beta distribution):给定参数 α,β>0,若 XBeta(α,β),则其概率密度函数 f(x)=Γ(α+β)Γ(α)Γ(β)xα1(1x)β1

  • CDF/PDF 还可以扩展到多维的情况。marginal mass function 是对多维的 probability mass function 投到某一维的结果。同理有 marginal density function。

  • 称两个随机变量 X,Y 独立,当且仅当 A,B,都有 P(XA,YB)=P(XA)P(YB)。若 X,Y 都是连续变量,这等价于 x,y,都有 f(x,y)=fX(x)fy(y),其中 f,fX,fY 分别表示 x,y 的 joint distribution、x 自身、y 自身的 PDF。

  • 称若干变量 IID,当且仅当仅当他们服从同一概率分布且互相独立。

  • 给定变量 X,若变量 Y=r(x),则对于某一 y 找出 Ay={x|r(x)y},算出 AyfX(x)dx 即可算出 Y 的概率分布。

Chapter 3

  • 对于随机变量 X,定义其期望为 xxf(x)(离散变量)或 xf(x)dx(连续变量),其中 f(x) 为其 PMF 或者 PDF。

  • The Rule of Lazy Statistician:对于 Y=r(X),则 E(Y)=E(r(X))=r(x)f(x)dx,不必算出 Y 的概率分布再积分。

  • X1,X2,,Xn 为随机变量,aiR,则 E(i=1naiXi)=i=1naiE(xi)

  • X1,X2,,Xn 互相独立,则 E(i=1nXi)=i=1nE(Xi)

  • 若随机变量 X 的期望为 μ,则定义其方差 V(X)=σ2=E((Xμ)2)=(xμ)2f(x)dx,其标准差定义为方差的算术平方根。

    • V(X)=E(X2)μ2
    • a,b 为常数则 V(aX+b)=a2V(X)
    • X1,X2,,Xn 互相独立且 a1,a2,,an 为常数,则 V(i=1naiXi)=i=1nai2V(Xi)
  • 若随机变量 X,Y,期望分别为 μX,μY,标准差分别为 σX,σY。则定义他们的协方差 Cov(X,Y)=E((XμX)(YμY)),相关系数 ρX,Y=Cov(X,Y)σXσY

  • 对任意 X,Y,都有 1ρX,Y1。若 X,Y 独立则 Cov(X,Y)=0

  • Y=aX+b,则若 a>0ρX,Y=1,若 a<0ρX,Y=1

    证明:Cov(X,Y)=E(XY)μXμY=E(X(aX+b))μX(aμX+b)=aE(X2)aμX2=aV(X)ρX,Y=aV(X)σX·σY=aV(X)σX·|aσX|=sgn(a)

  • V(X+Y)=V(X)+V(Y)+2Cov(X,Y),V(XY)=V(X)+V(Y)2Cov(X,Y)。更一般地,V(aiXi)=i=1nj=1naiajCov(Xi,Xj)

    证明:V(aiXi)=E((aiXi)2)(aiE(Xi))2=i=1nj=1naiaj(E(XiXj)E(Xi)E(Xj))=i=1nj=1naiajCov(Xi,Xj)

  • 常见概率分布的期望和方差:

  • 对随机变量 X 而言,定义其矩量生成函数(moment generating function)为 ψX(t)=E(etX)=etxf(x)dx。若 ψX(t)t=0 的某个邻域中有定义且可微,则 ψ(0)=[ddtEetx]t=0=E[ddtetx]t=0=E[XetX]t=0=E[X],类似地可以归纳证明 ψ(k)(0)=E[Xk]

  • 互相独立的随机变量的和的 MGF 是它们各自的 MGF 之积。

  • ψX(t)ψY(t)t=0 的某个邻域中相等,则 X,Y 有相同的概率分布。

  • 常见概率分布的 MGF:

Chapter 4

  • 马尔可夫不等式:设 X 为取值非负的随机变量,E(X) 存在,则 t,P(X>t)E(X)t

    证明:因为 X 取值非负,故 E(X)P(X>t)t

  • 切比雪夫不等式:设 X 为随机变量,μ=E(X)σ2=V(X),则 P(|Xμ|t)σ2t2

    证明:对 (Xμ)2 使用马尔可夫不等式可得 P(|Xμ|t)=P((Xμ)2t2)σ2t2

  • 柯西施瓦茨不等式:对方差有限的变量 X,YE(XY)E(X2)E(Y2)

  • 琴生不等式:对凸的 gE(g(X))g(E(X))

  • 霍夫丁不等式引理:对于随机变量 X,若 P(X[a,b])=1,E(X)=0,则 E(esX)es2(ba)28

    证明:因为 esXX[a,b] 上为凸函数,故 esXbXbaesa+Xabaesb,两边同时求数学期望冰带入 E(X)=0 可得 E(esX)bbaesaabaesb。而 bbaesaabaesb=exp(sa+ln(bbaabaes(ba)))。令 h=s(ba),p=aba,则式子可以写作 exp(hp+ln(1p+peh)),考察 L(h)=hp+ln(1p+peh) 的上界,根据泰勒公式,L(h)=L(0)+L(0)h+L(ξ)2h2,其中 ξ[0,h],而 L(h)=peh1p+peh(1peh1p+peh)14,所以 L(h)h28E(esX)es2(ba)28

  • 霍夫丁不等式:若 X1,X2,,Xn 为互相独立的随机变量,E(Xi)=0aiXibi,则对任意 ϵ,t>0,都有 P(i=1nYiϵ)etϵi=1net2(biai)2/8

    证明:P(i=1nYiϵ)=P(i=1netYietϵ)etϵi=1netYi,根据霍夫丁不等式引理,etϵi=1netYietϵi=1net2(biai)2/8

  • 推论:若 X1,X2,,Xn 为互相独立的随机变量,E(Xi)=0aiXibi,则对任意 ϵ>0,都有 P(i=1nYiϵ)exp(2ϵ2i=1n(biai)2)

    证明:考察函数 g(t)=ϵt+i=1n18t2(biai)2,令 g(t)=0t=4ti=1n(biai)2g(t)=2ϵ2i=1n(biai)2,因此 P(i=1nYiϵ)exp(2ϵ2i=1n(biai)2)

  • Mill 不等式:若 XN(0,1),则 P(|X|>t)2π·et2/2t

posted @   tzc_wk  阅读(22)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
历史上的今天:
2021-02-19 Dilworth 定理
2021-02-19 运算符优先级
点击右上角即可分享
微信分享提示