机器学习笔记(1)-频率派和贝叶斯派

机器学习笔记(1)-频率派和贝叶斯派

频率派和贝叶斯派

频率派认为当我们有一堆数据时,这些数据一定是符合一个规律的,只是这个规律我们并不知道,这里的规律可以理解为构造这些数据所需要的参数,这些参数是唯一确定的,我们的目标是如何从已经给到的数据中去估计出这些参数,而我们估计的参数可以使得这些数据发生的概率是最大的。其中“最大似然估计”干的就是这么件事。

贝叶斯派则认为所有的参数都是随机变量,都是服从一个概率分布的,那么只要先对这些参数设定一个假设的概率分布(先验概率),通过实验结果(给到的数据)来调整这个概率分布,最终我们得到一个正确的分布(后验概率),使得我们的数据都符合这个分布。

频率派估计

​ 假设有一堆数据\(X\),其中\(X=\left ( x_{1},x_{2},...,x_{n} \right )^{T}\),每个\(x_{i}\)都是一个数据样本,有一个参数\(\theta\),使得每个数据样本\(x\)都服从概率分布\(x\sim p\left ( x|\theta \right )\)

频率派认为\(\theta\)是未知常量,而\(X\)是随机变量,我们需要通过数据\(X\)来估计出\(\theta\),常用的方式是采用最大似然估计(Maximum Likelihood Estimate,MLE),也叫极大似然估计。

\[P\left ( X|\theta \right )=\prod_{i=1}^{n}p(x_{i}|\theta )\\ log\;P\left ( X|\theta \right )=\sum_{i=1}^{n}log\;p(x_{i}|\theta ) \]

​ 而我们一般都会在等式两边取对数\(log\)来就变成累加计算,所以当我们对\(\theta\)进行最大似然估计时,得到:

\[\theta _{MLE}=\underset{\theta}{argmax}\;log\;P(X|\theta ) \]

​ 于是我们只要求解上述等式,就可以得到最优解\(\theta\),一般的步骤是把上式看作损失函数,进行梯度下降等方法,最后逼近得到\(\theta\)。这个方式就是我们采用机器学习方法来解决问题的一般流程:

  1. 根据问题建立算法模型
  2. 设定损失函数loss function
  3. 通过优化方法来使损失函数最小,得到最优解参数\(\theta\)

贝叶斯派估计

贝叶斯派认为\(\theta\)也是一个随机变量,并且\(\theta\sim p\left (\theta \right )\),其中\(p\left (\theta \right )\)是一个先验概率。我们知道贝叶斯公式如下:

\[P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{P(X)} \]

​ 其中\(P(\theta |X)\)为后验概率,也就是我们要得到的东西,\(P(\theta )\)为先验概率。

​ 而更加准确的关于贝叶斯估计的写法其实是对上式求积分运算,通过边缘概率得到下式,再根据联合概率、边缘概率与条件概率之间的关系得到:

\[P(X)=\int_{\theta}^{}P(X,\theta )d_{\theta }=\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d_{\theta } \]

\[P(\theta |X)=\frac{P(X|\theta)\cdot P(\theta )}{\int_{\theta}^{}P(X|\theta )\cdot P(\theta )d_{\theta }} \]

​ 和似然估计MLE一样,贝叶斯派也有一个叫做最大后验估计(maximum a posteriori estimation,MAP),它和MLE非常相似,唯一的不同是它需要参数本身的分布,也就是需要先验概率。MAP公式如下:

\[\theta _{MAP}=\underset{\theta}{argmax}\;P(\theta|X ) \]

​ 上述公式表达的含义是最大后验概率来得到我们的参数\(\theta\),而根据公式\((3)\)中的等式,其中分母和参数\(\theta\)没什么关系,因此最大后验概率MAP等价于:

\[\theta _{MAP}=\underset{\theta}{argmax}\;P(X|\theta)\cdot P(\theta ) \]

​ 可以发现MAP估计其实只是比MLE多了一个先验概率,事实上虽然贝叶斯派和频率派的思想不同,但是对于后续模型关于\(\theta\)的求值却殊途同归。

总结

​ 本节简单的介绍了频率派和贝叶斯派在各自的参数估计上的不同,频率派一般采用极大似然估计,而贝叶斯派则采用最大后验概率估计,这两者思想的不同,也使得由频率派发展得到的机器学习统计型模型和贝叶斯派的概率图模型在解法上不同。

​ 后续会介绍这两派在模型推导和一些我们所熟悉的模型上的不同应用。

posted @ 2020-06-13 16:22  Epir  阅读(987)  评论(0编辑  收藏  举报