Intro to Probabilistic Model
概率论复习
概率(Probability)
频率学派(Frequentist):由大量试验得到的期望频率(致命缺陷:有些事情无法大量试验,例如一封邮件是垃圾邮件的概率,雷达探测的物体是一枚导弹的概率);
贝叶斯学派(Bayesian):基于已有信息而对预测结果的不确定性;
离散随机变量(Discrete Random Variables)
设 为离散随机变量
概率质量函数(Probability Mass Function)
联合概率(Joint Probability)
边缘概率(Marginal Probability)
条件概率(Conditional Probability)
贝叶斯理论(Bayes‘ Theorem)
独立与条件独立(Independence and Conditional Independence)
无条件独立
即:联合概率等于边缘概率之积
随机变量间的无条件独立在现实中十分罕见,概率模型中的变量(X=是否下大雨,Y=是否打球)间通常都存在互相影响的因素。
但这些因素大多是通过其他变量(如 Z=是否在室外)间接影响。
条件独立
即:条件联合密度等于条件边缘密度之积
例子:X = 是否下大雨,Y = 是否打球,Z = 是否在室外;
如果我们知道 Z,则预测 X 不需要知道 Y,预测 Y 也不需要知道 X,亦即 X 与 Y 在 Z 的条件下独立。
连续随机变量(Continuous Random Variables)
概率密度函数(Probabilistic Density Function)
累积分布函数(Accumulative Distribution Function)
ADF 是 单调递增函数(monotonically increasing function)
期望(Expectation)
期望亦即平均值(Mean)。
- 对于离散随机变量:
- 对于连续随机变量:
方差(Variance)
方差用来描述一个分布的“分散程度”(亦即“集中程度”)
分位数(Quantiles)
设 是 CDF, 是 的反函数,则 是累计概率 ,也是概率密度的积分(即面积)。
二元数据模型(Binary Data Model)
二元随机变量 (Binary Random Variable)是指随机变量,例如抛硬币的正、反面两种结果,某单词在文档中出现与不出现两种结果。
二项分布(Binomial Distribution)
已知某事件的发生概率与不发生概率分别为 和 ,
若 ,则称 服从概率为和,试验次数为 的二项分布
设某随机变量 服从二项分布,其 PMF(概率质量函数)为:
该离散函数的每个点都表示次试验下该事件发生次的概率。
伯努利分布(Bernoulli Distribution)
当二项分布的时,称此特殊的二项分布为伯努利分布,其 PMF 为:
一个自然的问题是:如何估计这个参数的值呢?
对伯努利模型的参数估计(Parameter Estimation)
考虑对一个伯努利事件的次观察值:
最大似然估计(Maximum Likelihood Estimation)
假设每个观测值独立同分布(Independent Identical Distribution),我们可以写出这些观测值在伯努利模型下的似然性(likelihood):
定义似然函数:
我们需要找到关于的最大似然估计值:
即在所有观测值中出现的比例。
- 最大似然估计方法存在的问题
在某些情况,尤其是当数据量比较小时,可能会出现从未出现的情况。(例如掷3次硬币都是反面,Volleyball 在5篇体育类新闻中均未出现)
此时很明显出现了过拟合(Overfitting)。
解决方案:“平滑处理”(Smooth)(依据?)——用参数的先验(prior)做贝叶斯推断(Bayesian Inference)
贝叶斯推断(Bayesian Inference)
β分布(Beta Distribution)
β分布定义在区间之间:
其数字特征(Numerical Characteristic)分别为
- 当时,我们得到的是均匀分布;
- 当时,我们得到的是双峰分布(峰值在处);
- 当时,我们得到的是单峰分布;
β-伯努利模型(Beta-Bernoulli Model)
- 似然概率(Likelihood)
假设观测数据 iid,则似然概率可以写为:
,分别表示中,出现的次数。(很明显,)
这两个数字称为数据的充分统计量(Sufficient Statistics),意思是我们只需要这两个统计量,就可以得到推断所需要的关于数据的全部信息。
- 先验概率(Prior)
首先,我们需要先验定义在区间之间。其次,如果先验和似然的形式相同,即类似于这种:
我们就可以方便地求出后验概率(指数相加即可):
这种似然形式相同的先验,我们称之为共轭先验(Conjugate Prior)
对于伯努利模型,其共轭先验就是上面提到的β分布:
- 后验概率(Posterior)
根据先验、似然、贝叶斯公式,我们可以求出后验概率:
可视为伪计数(Pseudo Count),假设先验服从均匀分布,即先验参数,此时相当于对数据做拉普拉斯平滑(Laplace Smoothing),也叫 Laplace’s Rule of Succession。
- Bayesian Sequential Update
使用分批(Batch)数据 更新后验概率:
- Bayesian Predictions —— 后验预测分布(Posterior Predictive Distribution)
预测下一次伯努利试验结果
由此可见,当时,先验的作用可忽略不计。
类别数据模型(Categorical Data Model)
类别随机变量(Categorical Random Variable) 是 多元随机变量 (Categorical Random Variable) 的离散形式,是指随机变量存在K种状态,例如掷K面体的骰子有K种结果,某单词在长度为K的词汇(Vocabulary)中出现。(通常使用 One-hot Encoding 表示不同状态)
狄利克雷分布(Dirichlet Distribution)
狄利克雷分布是多元普遍化(Multivariate Generalization)的β分布,定义在 Probability Simplex 上:
其 PDF 定义为:
: 某元素值的大小 决定曲面的峰值离该元素有多近。如果 中所有元素都小于1,则曲面呈凹形,每个元素的位置都有一个尖端。
: 中所有元素之和越大,则曲面越陡峭;
上图是5维对称狄利克雷分布的采样样例,左图参数为 ,分布非常稀松(sparse);右图参数为,分布均匀(uniform)且密集(dense)。
数字特征为:
狄利克雷-多项分布模型(Dirichlet-Multinomial Model
某数据集中有 个数据点(data case);而 表示一次试验(一个数据点)有种可能事件,通常使用 one-hot encoding;参数定义在 Probability Simplex 上。
似然概率(Likelihood)
假设每条数据 iid,则可得到似然概率:
表示第 种事件发生的次数。这也是模型的充分统计量(Sufficient Statistics)
先验概率(Prior)
参数 可视为 维向量,上面得到的似然概率是 个带指数参数相乘的形式。我们需要一个与似然概率形式相同的共轭先验,而狄利克雷分布的PDF正好满足这一点。因此可以借用狄利克雷分布:
后验概率(Posterior)
后验正比于先验和似然之积:
是数据集 的充分统计量, 相当于 pseudo count
后验预测分布(Posterior Predictive Distribution)
预测下一次试验结果是第 种事件发生的概率:
就是该 feature 的 pseudo count。
Written with StackEdit.
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 全程不用写代码,我用AI程序员写了一个飞机大战
· DeepSeek 开源周回顾「GitHub 热点速览」
· 记一次.NET内存居高不下排查解决与启示
· MongoDB 8.0这个新功能碉堡了,比商业数据库还牛
· .NET10 - 预览版1新功能体验(一)