贝叶斯估计和极大似然估计到底有何区别

个人理解：

最大似然估计：只是对似然的处理，概率乘积转概率密度乘积，取对数转加，求导得估计值；

贝叶斯估计：由先验乘似然得后验，

这个就是贝叶斯学习过程：在前一个训练集合 $D^{n-1}$ 的后验概率 $p(\theta |D^{n-1})$ 上，乘以新的测试样本点 $x_n$ 的似然估计，得到新的集合 $D^n$ 的后验概率 $p(\theta|D^n)$ ，这样，相当于 $p(\theta |D^{n-1})$ 成为了 $p(\theta|D^n)$ 的先验概率分布：

$p(\theta|D^n) \propto p(x_n|\theta)p(\theta |D^{n-1})$ ；

原文：https://blog.csdn.net/feilong_csdn/article/details/61633180

预热知识必知

如何求类条件概率密度：
我们知道贝叶斯决策中关键便在于知道后验概率，那么问题便集中在求解类条件概率密度！那么如何求呢？答案便是：将类条件概率密度进行参数化。

最大似然估计和贝叶斯估计参数估计：
鉴于类条件概率密度难求，我们将其进行参数化，这样我们便只需要对参数进行求解就行了，问题难度将大大降低！比如：我们假设类条件概率密度p(x|w)是一个多元正态分布，那么我们就可以把问题从估计完全未知的概率密度p(x|w)转化成估计参数：均值u、协方差ε

所以最大似然估计和贝叶斯估计都属于参数化估计！……当然像KNN估计、Parzen窗这些就是非参数话估计啦！但是参数化估计也自然有它的缺点，下面会说的！

简述二者最大的区别

若用两个字高度概括二者的最大区别那就是：参数

最大似然估计和贝叶斯估计最大区别便在于估计的参数不同，最大似然估计要估计的参数θ被当作是固定形式的一个未知变量，然后我们结合真实数据通过最大化似然函数来求解这个固定形式的未知变量！

贝叶斯估计则是将参数视为是有某种已知先验分布的随机变量，意思便是这个参数他不是一个固定的未知数，而是符合一定先验分布如：随机变量θ符合正态分布等！那么在贝叶斯估计中除了类条件概率密度p(x|w)符合一定的先验分布，参数θ也符合一定的先验分布。我们通过贝叶斯规则将参数的先验分布转化成后验分布进行求解！

同时在贝叶斯模型使用过程中，贝叶斯估计用的是后验概率，而最大似然估计直接使用的是类条件概率密度。

下面会详细分析最大似然估计和贝叶斯估计求解模型！

从其他方面谈谈二者的异同

在先验概率能保证问题有解的情况下，最大似然估计和贝叶斯估计在训练样本趋近于无穷时得到的结果是一样的！但是实际的模式识别问题中，训练样本总是有限的，我们应如何选择使用哪种模型呢？下面简单分析分析：

（1）计算复杂度：就实现的复杂度来说，肯定是有限选择最大似然估计，最大似然估计中只需要使用到简单的微分运算即可，而在贝叶斯估计中则需要用到非常复杂的多重积分，不仅如此，贝叶斯估计相对来说也更难理解；

（2）准确性：当采用的样本数据很有限时，贝叶斯估计误差更小，毕竟在理论上，贝叶斯估计有很强的理论和算法基础。

参数化估计的缺点：
贝叶斯估计和最大似然估计都是属于参数化估计，那么二者存在着一个共同的缺点：参数化估计虽然使得类条件概率密度变得相对简单，但估计结果的准确性严重依赖于所假设的概率分布形式是否符合潜在的真实数据分布。在现实应用中，与做出能较好的接近潜在真实分布中的假设，往往需要一定程度上利用关于应用任务本身的经验知识，否则若仅凭“猜测”来假设概率分布形式，很可能产生误导性的结果！所以没有什么算法是十全十美的啦！

下面便推导一下最大似然估计和贝叶斯估计所使用的模型，最大似然简单些，贝叶斯估计就比较复杂了！