Likelihood Function 似然函数

因为在研究上篇pLSA中运用到likelihood function,而且对其中的 likelihood function 倍感困惑。所以另开一篇,专讲likelihood function。参考来自wikipedia: http://en.wikipedia.org/wiki/Likelihood_function

在统计学中,likelihood function是一个非常重要的量,在统计推断、参数估计中扮演着重要的角色。

Likelihood function是一个基于统计模型中的参数的函数,注意变量是 parameter 参数,而不是variables。在wikipedia中,有the likelihood of a set of parameter values given some observed outcomes is equal to the probability of those observed outcomes given those parameter values。就是说给定一些观察量后,参数的likelihood 等于给定该参数后,得到这些观察量的概率。这句话的意思就是说 likelihood 是只针对参数的,叫做参数的likelihood function,而这个function形式上等于给定该参数后的概率。

在定义likelihood function的时候,需要注意是运用在离散分布还是连续分布上。

a) 离散概率分布:

X 是一个随机变量,其离散概率分布 p 依赖于参数θ。那么似然函数为:

这是一个关于θ的函数,可以称作(θ的给定X中的x的)似然函数 the likelihood function of θ, given the outcome x of X。有时候这个概率也被写成 P(X=x|θ),此时我们不能将这个式子看作是条件概率,因为此公式中的θ是一个参数,而不是随机变量。

b) 连续概率分布:

X 是一个随机变量,其连续概率分布的概率密度函数(density function) f 依赖于参数θ。那么似然函数为:

这是一个关于θ的函数,可以称作(θ的给定X中的x的)似然函数 the likelihood function of θ, given the outcome x of X。同样这个概率也被写成 f(x|θ),此时我们不能将这个式子看作是条件概率,因为此公式中的θ是一个参数,而不是随机变量。

 

在运用中,我们常常是收集到观察得来的数据,然后对数据建模。建模的过程中,会引入参数,这时候就需要对参数进行估计。那么likelihood function就派上用场了。首先我们得到给定参数后的概率密度函数或离散机率分布(probability mass function): x -> f(x|θ) ,那么likelihood function就是 θ -> f(x|θ)。写作 L(θ|x) = f(x|θ)。我们对L(θ|x) 最大化,得到最大化时的 θ 就是估计出来的 parameter。公式为

得到的估计为最大似然估计。在统计推断statstical inference中, maximum likelihood estimation为众多估计方法中的一种。以后专门讨论statistical inference 中的众多estimation方法。

 

在 C.Bishop 的 Pattern Recognition and Machine Learning 第三章 linear model for regression中,提到了maximum likelihood estimation带来的一个坏处,就是overfitting。

书中是从对数据进行 linear model 的regression开始的,假设数据是由一个linear model 和高斯噪声混合而成的:

其中 t 为观测数据, x 为横坐标, w 为参数。

通过对likelihood function 的分析,发现最大化likelihood function的过程其实就是对 sum-of-sqaures error function的最小化:

这是个很有意思的结论。因为SSE为大家普遍接受的一个衡量标准,如果能让SSE最小,则意味着让数据与模型之间的误差最小。

但同时,盲目地减少SSE会带来严重的overfitting。因为得到的模型会对测量数据有非常好的拟合,而模型对未来的数据进行的估计能力就很弱了。

为此,文中引入了一个约束项regularization term,给SSE,让最终的error function变为:

当最小化整个error function时,regularization term也会变小,这时,意味着估计得到的参数不会很离谱(因为严重overfitting时,参数随着数据剧烈变化,参数的norm非常大)。其中的 λ 控制需要约束的强度。

 

但如果不直接利用 likelihood function,而使用 Bayesian formula 得到posterior distribution,然后让posterior 概率最大,则可以即得到准备的估计又不会产生overfitting。这个方法被称为 Bayesian Linear Regression。

则有

假设prior distribution P(w)为高斯分布后,由于likelihood P(t|w)也是高斯分布,同时高斯分布是exponential family中的一员,所以后项分布 posterior distribution也是高斯分布。此时,最大化后项分布,两边取log,得到的结果竟然是-(SSE + 约束项) + const。与上面加了约束项的SSE一样。可见Bayesian linear regression能够很好地防止overfitting。

我认为likelihood是指,通过观测到的数据,在什么样的参数情况下,最有可能得到这些观测量。而如果对Prior distribution做了假设之后,就是通过这些观测值,直接估计参数。带有约束项的很大程度,是因为prior distribution对w的分布做了限定,限定是一个高斯分布,高斯分布中的noise通过variance表示出来,那么在posterior distritbution中, 使error function最小就会对w的variance产生约束,这个约束也就是通过方程中的约束项表示出来。

posted @ 2012-08-27 16:48  YYNicholas  阅读(1626)  评论(0编辑  收藏  举报