Intro to Probabilistic Model

概率论复习

概率(Probability)

频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率);
贝叶斯学派(Bayesian):基于已有信息而对预测结果的不确定性;

离散随机变量(Discrete Random Variables)

X{x1, x2, ..., xn}离散随机变量

概率质量函数(Probability Mass Function)

fX(x)=P(X=x),where 0P(X=x)1

i=1nfX(xi)=1

联合概率(Joint Probability)

P(X=x,Y=y)

边缘概率(Marginal Probability)

P(X=x)=yP(X=x,Y=y)=yP(X=x|Y=y)P(Y=y)

条件概率(Conditional Probability)

P(X=x|Y=y)=P(X=x,Y=y)P(Y=y)

贝叶斯理论(Bayes‘ Theorem)

P(X=x|Y=y)=P(Y=y|X=x)P(X=x)P(Y=y)

独立与条件独立(Independence and Conditional Independence)

无条件独立

XYP(X,Y)=P(X)P(Y)

即:联合概率等于边缘概率之积

随机变量间的无条件独立在现实中十分罕见,概率模型中的变量(X=是否下大雨,Y=是否打球)间通常都存在互相影响的因素。
但这些因素大多是通过其他变量(如 Z=是否在室外)间接影响。

条件独立

XY|ZP(X,Y|Z)=P(X|Z)P(Y|Z)

即:条件联合密度等于条件边缘密度之积

例子:X = 是否下大雨,Y = 是否打球,Z = 是否在室外;
如果我们知道 Z,则预测 X 不需要知道 Y,预测 Y 也不需要知道 X,亦即 X 与 Y 在 Z 的条件下独立。

连续随机变量(Continuous Random Variables)

概率密度函数(Probabilistic Density Function)

f(x)=p(X=x)

+f(x)dx=1

累积分布函数(Accumulative Distribution Function)

F(x)=P(Xx)=xf(x)dx

ADF 是 单调递增函数(monotonically increasing function)

期望(Expectation)

期望亦即平均值(Mean)。

  • 对于离散随机变量:

E(X)=xxP(X=x)μ

  • 对于连续随机变量:

E(X)=+xf(x)dxμ

方差(Variance)

方差用来描述一个分布的“分散程度”(亦即“集中程度”)

D(X)=E[(Xμ)2]σ2=E(X2)μ2

分位数(Quantiles)

F(x) 是 CDF,F1(α)F(x) 的反函数,则 α 是累计概率 F(xα),也是概率密度的积分(即面积)。

α=F(xα)=xαf(x)dx


二元数据模型(Binary Data Model)

二元随机变量 (Binary Random Variable)是指随机变量X{0,1},例如抛硬币的正、反面两种结果,某单词在文档中出现与不出现两种结果。

二项分布(Binomial Distribution)

已知某事件的发生概率与不发生概率分别为 θ(1θ)
XBin(n,θ),则称X 服从概率为θ(1θ),试验次数为n 的二项分布

设某随机变量 X 服从二项分布,其 PMF(概率质量函数)为:

Bin(x|n;θ)=Cnxθx(1θ)nx,where Cnx=n!(nx)!x!,x=0,1,...,n

该离散函数的每个点都表示n次试验下该事件发生x次的概率。

伯努利分布(Bernoulli Distribution)

当二项分布的n=1时,称此特殊的二项分布为伯努利分布,其 PMF 为:

Ber(x;θ)=θx(1θ)1x,where {0,1}

一个自然的问题是:如何估计θ这个参数的值呢?

对伯努利模型的参数估计(Parameter Estimation)

考虑对一个伯努利事件的n次观察值:D={x1,x2,...,xn}where x{0,1}

最大似然估计(Maximum Likelihood Estimation)

假设每个观测值独立同分布(Independent Identical Distribution),我们可以写出这些观测值在伯努利模型下的似然性(likelihood):

p(D|θ)=i=1np(xi|θ)=i=0nθxi(1θ)1xi

定义似然函数:

L(θ)=logp(D|θ)=i=0nxilogθ+(1xi)log(1θ)

我们需要找到p(D|θ)关于θ的最大似然估计值:

Set dL(θ)dθ=0, we obtainθ^=1ni=1nxi

x=1在所有观测值中出现的比例。

  • 最大似然估计方法存在的问题
    在某些情况,尤其是当数据量比较小时,可能会出现x=1从未出现的情况。(例如掷3次硬币都是反面,Volleyball 在5篇体育类新闻中均未出现)
    此时很明显出现了过拟合(Overfitting)。
    解决方案:“平滑处理”(Smooth)(依据?)——用参数θ的先验(prior)做贝叶斯推断(Bayesian Inference)

贝叶斯推断(Bayesian Inference)

β分布(Beta Distribution)

β分布定义在区间[0,1]之间:

Beta(x|a,b)=1B(a,b)xa1(1x)b1,whereB(a,b)=Γ(a)Γ(b)Γ(a+b)a,b>0

其数字特征(Numerical Characteristic)分别为

μ=aa+bσ=ab(a+b)2(a+b+1)

β分布

  • a=b=1时,我们得到的是均匀分布;
  • a,b<1时,我们得到的是双峰分布(峰值在x=0,x=1处);
  • a,b>1时,我们得到的是单峰分布;
β-伯努利模型(Beta-Bernoulli Model)
  • 似然概率(Likelihood)

假设观测数据 iid,则似然概率可以写为:

p(D|θ)=θn1(1θ)n0wheren1=i=1nI(xi=1),n0=i=1nI(xi=0)

n0n1分别表示Dx=0x=1出现的次数。(很明显,n=n0+n1
这两个数字称为数据D充分统计量(Sufficient Statistics),意思是我们只需要这两个统计量,就可以得到推断θ所需要的关于数据D的全部信息。

  • 先验概率(Prior)

首先,我们需要先验定义在区间[0,1]之间。其次,如果先验和似然的形式相同,即类似于这种:

p(θ)θγ1(1θ)γ0whereγ1 and γ0 are some parameters

我们就可以方便地求出后验概率(指数相加即可):

p(θ|D)p(θ)p(D|θ)=θN1+γ1θN0+γ0

这种似然形式相同的先验,我们称之为共轭先验(Conjugate Prior)
对于伯努利模型,其共轭先验就是上面提到的β分布:

Beta(θ|a,b)θa1(1θ)b1

  • 后验概率(Posterior)

根据先验、似然、贝叶斯公式,我们可以求出后验概率:

p(θ|D,a,b)=p(θ|a,b)p(D|θ)p(D,a,b)=p(θ|a,b)p(D|θ)01p(θ|a,b)p(D|θ,a,b)dx=Beta(θ|n1+a,n0+b)

a,b可视为伪计数(Pseudo Count),假设先验服从均匀分布,即先验参数a=1,b=1,此时相当于对数据做拉普拉斯平滑(Laplace Smoothing),也叫 Laplace’s Rule of Succession。
  • Bayesian Sequential Update
    使用分批(Batch)数据 Dii=1,2,...,N 更新后验概率:

p(θ|i=1NDi,a,b)θa1+i=1Nn1i(1θ)b1+i=1Nn0iBeta(θ | a+i=1Nn1i,b+i=1Nn0i)

  • Bayesian Predictions —— 后验预测分布(Posterior Predictive Distribution)
    预测下一次伯努利试验结果

p(x=1|D,a,b)=01p(x=1|θ)p(θ|D,a,b)dθ

p(x^=1|D,a,b)=01p(x=1|θ)p(θ|D,a,b)dθ=01θBeta(θ|n1+a,n0+b)dθ=E(θ|D)=n1+an1+a+n0+b

由此可见,当n0,n1b,a时,先验的作用可忽略不计。

类别数据模型(Categorical Data Model)

类别随机变量(Categorical Random Variable)多元随机变量 (Categorical Random Variable) 的离散形式,是指随机变量X存在K种状态,例如掷K面体的骰子有K种结果,某单词在长度为K的词汇(Vocabulary)中出现。(通常使用 One-hot Encoding 表示不同状态)

狄利克雷分布(Dirichlet Distribution)

狄利克雷分布是多元普遍化(Multivariate Generalization)的β分布,定义在 Probability Simplex 上:

SK={x:0xk1  k=1Kxk=1}

其 PDF 定义为:

Dir(x|α)=1B(α)k=1Kxkαk1I(xSK)whereB(α)=k=1KΓ(αk)Γ(k=0Kαk)a,b>0

αk: 某元素值的大小 αk 决定曲面的峰值离该元素有多近。如果α 中所有元素都小于1,则曲面呈凹形,每个元素的位置都有一个尖端。

k=0Kαk: α 中所有元素之和越大,则曲面越陡峭;


上图是5维对称狄利克雷分布的采样样例,左图参数为 α=(0.1,0.1,0.1,0.1,0.1),分布非常稀松(sparse);右图参数为α=(1.0,1.0,1.0,1.0,1.0),分布均匀(uniform)且密集(dense)。

数字特征为:

μ=αkαsumσ=αk(αsumαk)αsum2(αsum+1)

狄利克雷-多项分布模型(Dirichlet-Multinomial Model

某数据集中有 n 个数据点(data case)D={x1,...,xn};而 xi{1,...,K} 表示一次试验(一个数据点)有K种可能事件,通常使用 one-hot encoding;参数θ定义在 Probability Simplex 上。

似然概率(Likelihood)

假设每条数据 iid,则可得到似然概率:

P(D|θ)=k=1Kθki=1nxik=k=1Kθknk

nk 表示第 k 种事件发生的次数。这也是模型的充分统计量(Sufficient Statistics)

先验概率(Prior)

参数 θ 可视为 K 维向量,上面得到的似然概率是 K 个带指数参数相乘的形式。我们需要一个与似然概率形式相同的共轭先验,而狄利克雷分布的PDF正好满足这一点。因此可以借用狄利克雷分布:

Dir(θ|α)=1B(α)k=1Kθkαk1I(xSK)

后验概率(Posterior)

后验正比于先验和似然之积:

P(θ|D)P(θ)P(D|θ)1B(α)k=1Kθkαk1θknk1B(α)k=1Kθk(αk+nk)1Dir(θ|α+n)

n是数据集 D 的充分统计量,α 相当于 pseudo count

后验预测分布(Posterior Predictive Distribution)

预测下一次试验结果是第 k 种事件发生的概率:

P(x=k|D,α)=θP(x=k|θ)P(θ|D,α)dθ=αk+nkk(αk+nk)

αk 就是该 feature 的 pseudo count。


Written with StackEdit.

posted @   LexLuc  阅读(444)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示