-
一个概率函数 P 是一个从全体事件集合 Ω 到 R 的映射,满足:
- ∀A, P(A)≥0
- P(Ω)=1
- 对任意两两不相交的事件集合 A1,A2,⋯,Ak,P(∪ki=1Ai)=k∑i=1P(Ai)。
-
称两事件 A,B 互相独立,当且仅当 P(AB)=P(A)P(B)。
-
若 A,B 为两事件,其中 P(B)>0,则定义条件概率 P(A|B)=P(AB)P(B),其实际含义为已知 B 发生时 A 发生的概率。
-
若 A1,A2,⋯,Ak 为 Ω 的一组划分,则对任意事件 B,都有 P(B)=k∑i=1P(B|Ai)P(Ai)。
-
Bayes 公式:若 A1,A2,⋯,Ak 为 Ω 的一组划分,满足 ∀1≤i≤k,P(Ai)>0,B 为一满足 P(B)>0 的事件,则 P(Ai|B)=P(B|Ai)P(Ai)∑jP(B|Aj)P(Aj)。
-
对于随机变量 X,定义其 CDF FX(x)=P(X≤x)。
-
若 F 为一 R→[0,1] 的映射,则 F 是某随机变量的 CDF 当且仅当:
- ∀x1<x2,F(x1)≤F(x2)。
- limx→−∞F(x)=0,limx→+∞F(x)=1。
- ∀x,F(x)=F(x+)。
-
称一随机变量 X 为离散型随机变量,当且仅当其可能的取值只有有限种或者可数无穷多种。对离散型随机变量而言,定义其 probability mass function fX(x)=P(X=x)。
-
称一随机变量 X 为连续型随机变量,当且仅当存在函数 fX(x),满足 ∫+∞−∞fX(x)dx=1,且 ∀a≤b,都有 P(a<X<b)=∫bafX(x)dx。这一函数 fX(x) 被称为其 probability density function。∀x∈R,都有 fX(x)=F′X(x)。
-
常见的离散型概率分布:
- 点质量分布(point mass distribution):随机变量 X∼δa,当且仅当 P(X=a)=1,此时其 CDF 为 F(x)={0x<a1x≥a。
- 离散均匀分布(discrete uniform distribution):称随机变量 X 服从 {1,2,3,⋯,k} 上的离散均匀分布,当且仅当 P(X=i)=1k(i∈{1,2,3,⋯,k})。
- 伯努利分布(Bernoulli distribution):给定参数 p∈[0,1],随机变量 X∼Bernouli(p),当且仅当 P(X=1)=p,P(X=0)=1−p,其中 p∈[0,1]。
- 二项分布(binomial distribution):给定参数 n≥0,p∈[0,1],随机变量 X∼Binomial(n,p),当且仅当 P(X=x)=(nx)px(1−p)n−x,其中 0≤x≤n,其组合意义为掷 n 次正面朝上概率为 p 的硬币,正面朝上的次数的概率分布。伯努利分布可以视作 n=1 的二项分布。若 X1∼Binomial(n1,p),X2∼Binomial(n2,p),则 X1+X2∼Binomial(n1+n2,p)。
- 几何分布(geometric distribution):给定参数 p∈[0,1],随机变量 X∼Geom(p),当且仅当 P(X=k)=p(1−p)k−1,其中 k≥1。其组合意义为掷正面朝上概率为 p 的硬币,第一次掷到正面的时刻的概率分布。
- 泊松分布(poisson distribution):给定参数 λ,随机变量 X∼Poisson(λ),当且仅当 P(X=x)=e−λλxx!。若 X1∼Poisson(λ1),X2∼Poisson(λ2),则 X1+X2∼Poisson(λ1+λ2)。
-
常见的连续性概率分布:
-
均匀分布(uniform distribution):对于 [a,b] 上的均匀分布,其概率密度函数满足 f(x)=1b−a,其中 x∈[a,b]。
-
正态分布(normal distribution):给定参数 μ,σ,若 X 服从期望为 μ,方差为 σ2 的正态分布,则其概率密度函数满足 f(x)=1σ√2πexp(−12σ2(x−μ)2),记作 X∼N(μ,σ2)。
称 μ=0,σ=1 的正态分布为标准正态分布。若 X 服从期望为 μ,方差为 σ2 的正态分布,则 X−μσ 服从标准正态分布。若 Xi∼N(μi,σ2i),则 n∑i=1Xi∼(n∑i=1μi,n∑i=1σ2i)。
-
指数分布(exponential distribution):给定参数 β>0,若 X∼Exp(β),则其概率密度函数 f(x)=1βe−xβ,其中 x>0。
-
Gamma 分布(Gamma distribution):给定参数 α,β>0,若 X∼Gamma(α,β),则其概率密度函数 f(x)=1βαΓ(α)xα−1e−xβ,其中 Γ(α)=∫∞0yα−1e−ydy。
-
Beta 分布(Beta distribution):给定参数 α,β>0,若 X∼Beta(α,β),则其概率密度函数 f(x)=Γ(α+β)Γ(α)Γ(β)xα−1(1−x)β−1。
-
CDF/PDF 还可以扩展到多维的情况。marginal mass function 是对多维的 probability mass function 投到某一维的结果。同理有 marginal density function。
-
称两个随机变量 X,Y 独立,当且仅当 ∀A,B,都有 P(X∈A,Y∈B)=P(X∈A)P(Y∈B)。若 X,Y 都是连续变量,这等价于 ∀x,y,都有 f(x,y)=fX(x)fy(y),其中 f,fX,fY 分别表示 x,y 的 joint distribution、x 自身、y 自身的 PDF。
-
称若干变量 IID,当且仅当仅当他们服从同一概率分布且互相独立。
-
给定变量 X,若变量 Y=r(x),则对于某一 y 找出 Ay={x|r(x)≤y},算出 ∫AyfX(x)dx 即可算出 Y 的概率分布。
-
对于随机变量 X,定义其期望为 ∑xxf(x)(离散变量)或 ∫xf(x)dx(连续变量),其中 f(x) 为其 PMF 或者 PDF。
-
The Rule of Lazy Statistician:对于 Y=r(X),则 E(Y)=E(r(X))=∫r(x)f(x)dx,不必算出 Y 的概率分布再积分。
-
若 X1,X2,⋯,Xn 为随机变量,ai∈R,则 E(n∑i=1aiXi)=n∑i=1aiE(xi)。
-
若 X1,X2,⋯,Xn 互相独立,则 E(n∏i=1Xi)=n∏i=1E(Xi)。
-
若随机变量 X 的期望为 μ,则定义其方差 V(X)=σ2=E((X−μ)2)=∫(x−μ)2f(x)dx,其标准差定义为方差的算术平方根。
- V(X)=E(X2)−μ2。
- 若 a,b 为常数则 V(aX+b)=a2V(X)。
- 若 X1,X2,⋯,Xn 互相独立且 a1,a2,⋯,an 为常数,则 V(n∑i=1aiXi)=n∑i=1a2iV(Xi)。
-
若随机变量 X,Y,期望分别为 μX,μY,标准差分别为 σX,σY。则定义他们的协方差 Cov(X,Y)=E((X−μX)(Y−μY)),相关系数 ρX,Y=Cov(X,Y)σXσY。
-
对任意 X,Y,都有 −1≤ρX,Y≤1。若 X,Y 独立则 Cov(X,Y)=0。
-
若 Y=aX+b,则若 a>0 则 ρX,Y=1,若 a<0 则 ρX,Y=−1。
证明:Cov(X,Y)=E(XY)−μXμY=E(X(aX+b))−μX(aμX+b)=aE(X2)−aμ2X=aV(X),ρX,Y=aV(X)σX⋅σY=aV(X)σX⋅|aσX|=sgn(a)。
-
V(X+Y)=V(X)+V(Y)+2Cov(X,Y),V(X−Y)=V(X)+V(Y)−2Cov(X,Y)。更一般地,V(∑aiXi)=n∑i=1n∑j=1aiajCov(Xi,Xj)。
证明:V(∑aiXi)=E((∑aiXi)2)−(∑aiE(Xi))2=n∑i=1n∑j=1aiaj(E(XiXj)−E(Xi)E(Xj))=n∑i=1n∑j=1aiajCov(Xi,Xj)。
-
常见概率分布的期望和方差:

-
对随机变量 X 而言,定义其矩量生成函数(moment generating function)为 ψX(t)=E(etX)=∫etxf(x)dx。若 ψX(t) 在 t=0 的某个邻域中有定义且可微,则 ψ′(0)=[ddtEetx]t=0=E[ddtetx]t=0=E[XetX]t=0=E[X],类似地可以归纳证明 ψ(k)(0)=E[Xk]。
-
互相独立的随机变量的和的 MGF 是它们各自的 MGF 之积。
-
若 ψX(t) 和 ψY(t) 在 t=0 的某个邻域中相等,则 X,Y 有相同的概率分布。
-
常见概率分布的 MGF:

-
马尔可夫不等式:设 X 为取值非负的随机变量,E(X) 存在,则 ∀t,P(X>t)≤E(X)t。
证明:因为 X 取值非负,故 E(X)≥P(X>t)t。
-
切比雪夫不等式:设 X 为随机变量,μ=E(X),σ2=V(X),则 P(|X−μ|≥t)≤σ2t2。
证明:对 (X−μ)2 使用马尔可夫不等式可得 P(|X−μ|≥t)=P((X−μ)2≥t2)≤σ2t2。
-
柯西施瓦茨不等式:对方差有限的变量 X,Y,E(XY)≤√E(X2)E(Y2)。
-
琴生不等式:对凸的 g,E(g(X))≥g(E(X))。
-
霍夫丁不等式引理:对于随机变量 X,若 P(X∈[a,b])=1,E(X)=0,则 E(esX)≤es2(b−a)28。
证明:因为 esX 在 X∈[a,b] 上为凸函数,故 esX≤b−Xb−aesa+X−ab−aesb,两边同时求数学期望冰带入 E(X)=0 可得 E(esX)≤bb−aesa−ab−aesb。而 bb−aesa−ab−aesb=exp(sa+ln(bb−a−ab−aes(b−a)))。令 h=s(b−a),p=−ab−a,则式子可以写作 exp(−hp+ln(1−p+peh)),考察 L(h)=−hp+ln(1−p+peh) 的上界,根据泰勒公式,L(h)=L(0)+L′(0)h+L′′(ξ)2h2,其中 ξ∈[0,h],而 L′′(h)=peh1−p+peh(1−peh1−p+peh)≤14,所以 L(h)≤h28,E(esX)≤es2(b−a)28。
-
霍夫丁不等式:若 X1,X2,⋯,Xn 为互相独立的随机变量,E(Xi)=0 且 ai≤Xi≤bi,则对任意 ϵ,t>0,都有 P(n∑i=1Yi≥ϵ)≤e−tϵn∏i=1et2(bi−ai)2/8。
证明:P(n∑i=1Yi≥ϵ)=P(n∏i=1etYi≥etϵ)≤e−tϵn∏i=1etYi,根据霍夫丁不等式引理,e−tϵn∏i=1etYi≤e−tϵn∏i=1et2(bi−ai)2/8。
-
推论:若 X1,X2,⋯,Xn 为互相独立的随机变量,E(Xi)=0 且 ai≤Xi≤bi,则对任意 ϵ>0,都有 P(n∑i=1Yi≥ϵ)≤exp(−2ϵ2n∑i=1(bi−ai)2)。
证明:考察函数 g(t)=−ϵt+n∑i=118t2(bi−ai)2,令 g′(t)=0 得 t∗=4tn∑i=1(bi−ai)2,g(t∗)=−2ϵ2n∑i=1(bi−ai)2,因此 P(n∑i=1Yi≥ϵ)≤exp(−2ϵ2n∑i=1(bi−ai)2)。
-
Mill 不等式:若 X∼N(0,1),则 P(|X|>t)≤√2π⋅e−t2/2t。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 阿里最新开源QwQ-32B,效果媲美deepseek-r1满血版,部署成本又又又降低了!
· 开源Multi-agent AI智能体框架aevatar.ai,欢迎大家贡献代码
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· AI技术革命,工作效率10个最佳AI工具
2021-02-19 Dilworth 定理
2021-02-19 运算符优先级