最大似然估计中的“似然”如何解释?
这个知乎答案不错:
https://www.zhihu.com/question/54082000/answer/470252492
可以简单地将“似然”理解为概率。
在英语日常生活中,似然(likelihood)和概率(probability)的使用一般不作区分。在统计学上,基于某些模型的参数(粗略地说,我们可以认为参数决定了模型),观测到某数据的概率称为概率;而已经观测到某数据,模型的参数取特定值的概率称为似然。
举个例子来说,我们有一些秤,这些秤不怎么准,每次称东西都会有一些误差,而且每次称的误差可能不一样(比方说,使用了一些不稳定的电子元件)。假设这些误差是由这些秤的零件的参数决定的。那么,给定一个秤,并且有出厂报告,上面载明了零件的参数。拿这杆秤去称个1kg的东西,可能称出各种重量,比如0.98kg、0.99kg、1.02kg等等,称出每种重量的概率,称为概率。另一方面,有一个秤的出厂报告我们丢了,现在我们要通过拿这个秤去反复称1kg的东西,根据测出的重量的统计数据,反推这个秤的参数可能是哪些值(参数取每个值的概率),这就称为似然。
我们看到,似然和概率本质上都是概率,这是它们容易混淆的一个原因。
另一方面,只要数据和参数一致的情况下,给定参数计算出观测到特定数据的概率,和给定数据,计算出特定参数的似然,值是相等的:
\[L(\mu , \sigma ;data)=P(data;\mu , \sigma )
\]
你可以把概率和似然想象成钥匙和锁,是配套的。给你一把钥匙,让你去试可以开那扇门的锁,和指定一扇门的锁,让你去试哪吧钥匙能开,不会改变钥匙和锁的对应关系。
所以,所谓最大似然估计,就是我们想知道哪套参数组合对应的曲线最可能拟合我们观测到的数据(拟合出观测数据的概率最大),即最大化拟合观测到的数据的曲线参数的似然。