(原创)机器学习之概率与统计(一)- 随机变量及其分布
目录
5.中心极限定理(Central Limit Theorem, CLT)
一、 概率公理及推论
1. 联合概率
对任意两个时间A和B,则有:
P(A , B) = P(A∩B) = P(B)P (A|B) = P(A)P (B|A)
2. 条件概率
当P(B)>0时,给定B发生时,A的条件概率是:
3. 全概率公式
A1, …, AK为A的一个子集,则对任意事件B,有:
注:可以把B事件发生的概率看作是所有在A条件下发生B的概率的权重之和,P(A)可以看成一个权重。
4. 贝叶斯公式
A1, …, AK为A的一个子集,k=1,2, …,K。若P(B)>0,P(A)>0,则有
二、 随机变量及其分布
1. 随机变量
随机变量是一个函数,将一个实数值映射到一个试验的每一个输出。即将每一个事件映射到衡量这个事件的每一个数据。是随机事件与数据之间的联系起来的纽带:
f(事件) = 数据
f()称为随机变量。
注:
1)数据是随机变量的具体值
2)统计量是数据或者随机变量的任何函数
3)任何随机变量的函数仍然是随机变量
2. 累积分布函数CDF
设X为一个随机变量,x为X的一具体值(即数据),则随机变量X的累积分布函数(cumulative
distribution function, CDF)的定义:
F(X) = P(X ≤ x ) (F:R->[0,1])
CDF包含了随机变量的所有信息。
3. 概率函数pmf
离散型随机变量的概率函数(probability mass function, pmf))的定义:
p(x) = P(X=x)
性质:
1)对于所有x∈R,p(x) ≥ 0
4. 概率密度函数pdf
连续型随机变量X的概率密度函数(probability density function, pdf))的定义:
对所有的x满足:
则称p为概率密度函数。
性质:
1)p(x)不必≤1
2)CDF与pdf间的关系:
5. 随机变量的分布
5.1 分布的概述
单值描述来刻画某个分布的性质:
(1) 位置描述
期望、中值、众数、分位数
(2) 散布程度描述
方差、四分位矩(IQR)
5.2 位置描述
5.2.1期望
(1)实质
随机变量的平均值,即概率的加权平均,一阶矩。
(2)连续情况下的定义:
(3)离散情况下的定义:
(4)期望的性质
1)线性运算
E(aX + b) = aE(X) + b
2)加法规则
X1,…,Xn是随机变量,a1,…,an是常数,则:
3)乘法规则
X1,…,Xn是相互独立的随机变量,则:
5.2.2 众数(mode)
定义:随机变量次数出现最多的位置,即随机变量出现概率最大的位置:
设随机变量X有密度p(x),存在x0满足:
则称x0为随机变量X的众数。
5.2.3 中值(Median)
随机变量的累积分布函数(CDF)为0.5时的随机变量的值:
当P(X ≤ x0 ) = 0.5 时,x0称为随机变量X的中值。
5.2.3 分位数
定义:分位数(分位函数quantile function)是随机变量X的CDF的反函数:
其中,α∈[0,1],inf表示下界。
性质:
5.3散布程度描述
5.3.1 方差
(1)k阶矩
随机变量X的k阶矩定义为 E(Xk)
(2)方差
方差,即为二阶矩:
标准差:
(3)实质
刻画随机变量X围绕均值的离散程度, 方差越大,X的变化越大。
(4)方差的性质
2)a,b是常数,V(aX+b) = a2V(X)
5.3.1四分位矩(IQR)
25%分位数到75%分位数之间的区间
三、 常见随机变量概率分布
1. 常见离散型随机变量
1.1 二项分布(Binomial)
n次试验,事件发生的数目X满足二项分布,记为:x ~ Bin(n,θ):
特性:
(1) 期望:μ=nθ
(2) 方差:V=nθ(1-θ)
1.2 Bernoulli分布
如果二次分布只进行一次试验,则为Bernoulli分布。Bernoulli分布又名0-1分布,若试验成功则随机变量X取1,否则X取0,成功的概率为θ,即:
P(X=1) = θ,P(X=0) = 1-θ,θ∈[0,1]
参数为θ的Bernoulli分布,记为x ~ Ber(θ):
特性:
(1) 期望:μ=θ
(2) 方差:V=θ(1-θ)
1.3多项分布(Multinomial)
假设某个试验一共可能发生j个事件,第j个事件发生的概率为θj,令θ= (θ1, …,θk),如果一共进行n次试验,X=(x1, …, xk)为随机向量,其中xk表示事件发生次数,X的分布为多项分布:x~Mu(n, θ)。
2.常见离散型随机变量
2.1均匀分布
X ~ Uniform(a, b):
2.2高斯分布
X ~ N (μ, δ2 ):(μ:期望,δ2:方差):
特性:
(1) 高斯分布的CDF:
(2) 当μ=0,δ2=1时,称为标准正态分布,记为Z ~ N(0,1),标准化:
2.3 Laplace分布
拉布拉斯分布的pdf:
特性:
(1) 期望:μ
(2) 方差:2b2
(3) 拉布拉斯分布比高斯分布更鲁棒,高斯分布对噪声敏感。
2.4 Gamma分布
x ~ Ga(shape=a, rate=b):
其中Γ(x)为Gamma函数,a为形状参数,b为比率度参数。
或者:
反Gamma分布(反Gamma分布用于正态分布方差的共轭先验):
其中Gamma函数为:
特性:
(1) Gamma分布
1)均值:a/b
2)众数:(a-1)/b
3)方差:a/b2
(2) 反Gamma分布
1)均值:b/(a-1)
2)众数:b/(a+1)
3)方差:b2/(a-1)2(a-2)
2.5 Beta分布
其中:
特性:
1)均值:a/(a+b)
2)众数:(a-1)/(a+b-2)
3)方差:(ab)/(a+b)2(a+b+1)
2.6 Dirichlet分布
将Beta分布扩展到多维,即得到Dirichlet分布。其pdf为
其中:
注:Dirichlet分布在文档分析中的主题模型LDA(Latent Dirichlet Allocation )用到。
特性:
2.7混合分布
混合分布(mixture distribution)由一些组件(component)分布构成,由哪个组件分布构成取决于从一个多项分布中采样的结果。每次实验,样本是:
其中p(c)是对各组件的一个多项(Multinomial)分布.
2.8混合高斯模型
高斯混合模型(Gaussian Mixture Model,GMM)是概率密度的万能近似器(universal approximator),任何平滑的概率密度都可以用具有足够多组件的高斯混合模型以任意精度逼近:
(1) 组件p(x|c=k)是高斯分布
(2) 每个组件用自己的参数:均值、方差-协方差矩阵
(3) 组件也可以共享参数:每个组件的方差-协方差矩阵相等
四、 抽样分布
1. 独立同分布(IID)
定义:
满足:
随机变量X1,…,XN互相独立且有相同的边缘分布F(记为X1,…,XN ~ F)
的随机变量X1,…,XN,称为独立同分布(Independent Identically Distribution, IID)样本。
诠释:
IID表示X1,…,XN是从相同的分布独立抽样,也称X1,…,XN是分布F的随机样本,若F有密
度p,也可记为X1,…,XN ~ F
2.抽样分布
假设X1,…,XN为独立同分布样本(IID),其均值和方差分别为μ和δ2。则样本均值:
为一统计量,也是随机变量,因此也可对其进行分布进行描述,该分布称为统计量的抽样分布。
3.样本均值和样本方差
假设X1,…,XN为独立同分布样本(IID),
则样本的期望为:
样本的方差为:
又有随机变量X1,…,XN的期望μ=E(Xi),方差δ2=V(Xi),则有
说明了和分别为μ和δ2的很好估计(无偏估计):样本数N越大,样本均值越接近随机变量实际的均值μ。
4.弱大数定理(WLLN)
独立同分布(IID)的随机变量X1,…,XN,其期望:μ=E(Xi),其方差:δ2=V(Xi)
(1) 样本均值
依概率收敛于期望μ,即对任意ε>0,有:
(3) 实质:当样本的数量足够大时,样本的均值和方差收敛于随机变量的期望和方差。
5.中心极限定理(Central Limit Theorem, CLT)
独立同分布(IID)的随机变量X1,…,XN,其期望:μ=E(Xi),其方差:δ2=V(Xi)
则样本均值:
近似服从期望为μ,方差为δ2/N的正态分布,即
其中,标准差δ可用样本的标准差代替,即
其中
实质:任意随机变量的分布,其样本均值近似服从正态分布。
五、 分布估计
1.参数估计
已知分布的类型,但参数未知。
2.非参数估计
2.1直方图估计
方法:
(1) 将输入空间划分为M个箱子(bin), 箱子的宽度为h=1/M,则这些箱子为:
(2) 计算落入箱子b中的样本数目Vb,则落入箱子b的比率为:
(3) 则直方图估计为:
其I(x ∈ Bb) 表示落到箱子中的计数值。
直方图估计的缺点:箱中每个样本的权重相等,因此直方图不连续。
2.2核密度估计
2.2.1基本思想
每个样本的权重随其到目标点的距离平滑衰减。
2.2.2核密度估计的定义
其中,参数h称为带宽(bandwidth),K为任意平滑的核函数,其满足:
2.2.3实质
对样本点施以不同的权,用加权来代替通常的计数。
2.2.4常见的核函数
(1)Epanechnikov 核
使风险最小的核函数,亦被称为抛物面核或者叫做二次核函数。
(2)高斯核
2.3根据有限个统计量估计(极大熵原理)
2.3.1极大熵原理
(1)主要思想
在只掌握关于未知分布的部分知识时,应该选取符合这些知识但熵值最大的概率分布。
(2)实质
约束:符合已知知识(特征的统计量)
极大熵:关于未知分布最合理的推断 = 符合已知知识最不确定或最随机的推断
2.3.2充分统计量
(1)统计量
给定数据xN = (x1, …, xN), 假设其统计量为:
例如:
(2)充分统计量
统计量(向量)包含了计算参数所需的所有信息:
只要知道了充分统计量,就可以估计处出样本。
2.3.3指数分布族
给定训练样本xN = (x1, …, xN) ~ p(x),使用极大熵原理,推导出其密度q(x)的估计:
(1) 得到数据的M个统计量:
(2) 当样本数N增加时,样本均值会接近真正的期望:
我们使用密度函数q(x)来估计p(x),则一个很合理的假设是这两者的期望相同:
(3) 附加另外一个约束:
(4) 已知M+1个已知知识(约束),应该选取符合这些知识但熵值最大的概率分布:
则满足最大熵情况下的q(x)为:
且满足条件:
(5) 使用Lagrange乘子法求解上式:
求解得到:
其中,Z为归一化常数,参数λ= (λ1, …, λM)
注意:
参数可以通过MLE求解。选取的统计量越多,q(x)越接近p(x)。给定的N个有限的数据,M<N,否则会过拟合。通常M=O(logN)。
2.3.4一个极大熵的例子
如果我们取两个统计量:
将得到的指数分布族为高斯分布:
因此高斯分布是给定均值和协方差情况下的最大熵分布。
- tany 2017年10月6日于杭州
人工智能从入门到专家教程资料:https://item.taobao.com/item.htm?spm=a1z38n.10677092.0.0.38270209gU11fS&id=562189023765