最大似然估计和最大后验估计

最大似然估计

机器学习任务可以分为两类:

  • 一类是样本的特征向量 \(𝒙\) 和标签 \(𝑦\) 之间存在未知的函数关系 \(𝑦 = ℎ(𝒙)\)
  • 另一类是条件概率 \(𝑝(𝑦|𝒙)\) 服从某个未知分布.

第2.3.1.1节中介绍的最小二乘法是属于第一类, 直接建模 \(𝒙\) 和标签 \(𝑦\) 之间的函数关系. 此外, 线性回归还可以从建模条件概率𝑝(𝑦|𝒙)的角度来进行参数估计
假设标签\(𝑦\)为一个随机变量, 并由函数 \(𝑓(𝒙; 𝒘) = 𝒘^T𝒙\) 加上一个随机噪声\(𝜖\)决定, 即
\(𝑦 = 𝑓(𝒙; 𝒘) + 𝜖= 𝒘^T𝒙 + 𝜖\),这里把\(𝒙\)看作确定值的参数.
其中\(𝜖\)服从均值为\(0\)、方差为 \(𝜎^2\) 的高斯分布.这样, \(𝑦\) 服从均值为\(𝒘^T𝒙\)、 方差为 \(𝜎^2\)的高斯分布:
image
参数\(𝒘\)在训练集\(𝒟\)上的似然函数(Likelihood)为:
image
其中\(𝒚 = [𝑦^{(1)}, ⋯ , 𝑦^{(𝑁)}]^T\) 为所有样本标签组成的向量, \(𝑿 = [𝒙^{(1)}, ⋯ , 𝒙^{(𝑁)}]\)为所有样本特征向量组成的矩阵.


似然函数是关于统计模型的参数的函数.似然\(𝑝(𝑥|𝑤)\)和概率\(𝑝(𝑥|𝑤)\)之间的区别在于:

  • 概率\(𝑝(𝑥|𝑤)\)是描述固定参数\(𝑤\)随机变量𝑥的分布情况
  • 而似然\(𝑝(𝑥|𝑤)\)则是描述已知随机变量\(𝑥\)不同的参数\(𝑤\)对其分布影响

为了方便计算,对似然函数取对数得到对数似然函数(Log Likelihood):
image
最大似然估计(Maximum Likelihood Estimation, MLE)是指找到一组参数 \(𝒘\) 使得似然函数 \(𝑝(𝒚|𝑿; 𝒘, 𝜎)\)最大,等价于对数似然函数 \(log 𝑝(𝒚|𝑿; 𝒘, 𝜎)\)最大.令
image
得到
image
可以看出, 最大似然估计的解和最小二乘法的解相同.

最大后验估计

最大似然估计的一个缺点是当训练数据比较少时会发生过拟合,估计的参数可能不准确.为了避免过拟合,我们可以给参数加上一些先验知识
假设参数\(𝒘\)为一个随机向量,并服从一个先验分布\(𝑝(𝒘;𝜈)\).为简单起见, 一般令\(𝑝(𝒘; 𝜈)\)为各向同性的高斯分布:
image
其中\(𝜈^2\)为每一维上的方差.
根据贝叶斯公式,参数\(𝒘\)的后验分布( Posterior Distribution)为:
image
上面的第二个式子是因为分母为和𝒘无关的常量.
其中\(𝑝(𝒚|𝑿, 𝒘; 𝜎)\)\(𝒘\)的似然函数\(𝑝(𝒘; 𝜈)\)\(𝒘\)的先验

这种估计参数\(𝒘\)的后验概率分布的方法称为贝叶斯估计(Bayesian Estimation), 是一种统计推断问题采用贝叶斯估计的线性回归也称为贝叶斯线性回归( Bayesian Linear Regression)

贝叶斯估计是一种参数的区间估计,即参数在一个区间上的分布.如果我们希望得到一个最优的参数值(即点估计),可以使用最大后验估计.最大后验估计(Maximum A Posteriori Estimation, MAP)是指最优参数为后验分布\(𝑝(𝒘|𝑿, 𝒚; 𝜈, 𝜎)\)中概率密度最高的参数
image

令似然函数\(𝑝(𝒚|𝑿, 𝒘; 𝜎)\)为公式(2.50)中定义的高斯密度函数, 则后验分布\(𝑝(𝒘|𝑿, 𝒚; 𝜈, 𝜎)\)的对数为
image
可以看出,最大后验概率等价于平方损失的结构风险最小化, 其中正则化系数\(𝜆 = \frac{𝜎^2}{𝜈^2}\)

最大似然估计和贝叶斯估计可以分别看作频率学派和贝叶斯学派对需要估计的参数𝒘的不同解释. \(𝜈 → ∞\)时, 先验分布\(𝑝(𝒘; 𝜈)\)退化为均匀分布,称为无信息先验(Non-Informative Prior),最大后验估计退化为最大似然估计(此时可以将先验分布\(𝑝(𝒘; 𝜈)\)带入上面的参数\(𝒘\)的后验分布的决定式,此时先验分布\(𝑝(𝒘; 𝜈)\)为一个常数,不起决定作用)


事实上,概率模型的训练过程就是参数估计(parameter estimation)的过程。对于参数的估计,统计学界的两个学派提供了不同的解决方案

  • 频率主义学派(Frequentist)认为参数虽然未知,但却是客观存在的固定值,因此,可通过优化似然函数等准则来确定参数值;
  • 贝叶斯学派(Bayesian)则认为参数是未观察到的随机变量,其本身也可有分布,因此,可假设参数服从一个先验分布,然后基于观测到的数据计算参数的后验分布

posted on 2021-04-10 21:28  朴素贝叶斯  阅读(607)  评论(0编辑  收藏  举报

导航