Likelihood Function 似然函数

因为在研究上篇pLSA中运用到likelihood function，而且对其中的 likelihood function 倍感困惑。所以另开一篇，专讲likelihood function。参考来自wikipedia: http://en.wikipedia.org/wiki/Likelihood_function

在统计学中，likelihood function是一个非常重要的量，在统计推断、参数估计中扮演着重要的角色。

Likelihood function是一个基于统计模型中的参数的函数，注意变量是 parameter 参数，而不是variables。在wikipedia中，有the likelihood of a set of parameter values given some observed outcomes is equal to the probability of those observed outcomes given those parameter values。就是说给定一些观察量后，参数的likelihood 等于给定该参数后，得到这些观察量的概率。这句话的意思就是说 likelihood 是只针对参数的，叫做参数的likelihood function，而这个function形式上等于给定该参数后的概率。

在定义likelihood function的时候，需要注意是运用在离散分布还是连续分布上。

a) 离散概率分布：

X 是一个随机变量，其离散概率分布 p 依赖于参数θ。那么似然函数为：

$L\(\theta|x )=p_{\theta}\(x)=P_{\theta}\(X=x)$

这是一个关于θ的函数，可以称作（θ的给定X中的x的）似然函数 the likelihood function of θ, given the outcome x of X。有时候这个概率也被写成 P(X=x|θ)，此时我们不能将这个式子看作是条件概率，因为此公式中的θ是一个参数，而不是随机变量。

b) 连续概率分布：

X 是一个随机变量，其连续概率分布的概率密度函数(density function) f 依赖于参数θ。那么似然函数为：

$L\(\theta|x )=f_{\theta}\(x)$

这是一个关于θ的函数，可以称作（θ的给定X中的x的）似然函数 the likelihood function of θ, given the outcome x of X。同样这个概率也被写成 f(x|θ)，此时我们不能将这个式子看作是条件概率，因为此公式中的θ是一个参数，而不是随机变量。

在运用中，我们常常是收集到观察得来的数据，然后对数据建模。建模的过程中，会引入参数，这时候就需要对参数进行估计。那么likelihood function就派上用场了。首先我们得到给定参数后的概率密度函数或离散机率分布(probability mass function)： x -> f(x|θ) ，那么likelihood function就是 θ -> f(x|θ)。写作 L(θ|x) = f(x|θ)。我们对L(θ|x) 最大化，得到最大化时的 θ 就是估计出来的 parameter。公式为

$\hat{\theta}= arg\ \underset{\theta}{max}\{ L(\theta |x);\theta \in \Omega \}$

得到的估计为最大似然估计。在统计推断statstical inference中， maximum likelihood estimation为众多估计方法中的一种。以后专门讨论statistical inference 中的众多estimation方法。

在 C.Bishop 的 Pattern Recognition and Machine Learning 第三章 linear model for regression中，提到了maximum likelihood estimation带来的一个坏处，就是overfitting。

书中是从对数据进行 linear model 的regression开始的，假设数据是由一个linear model 和高斯噪声混合而成的：

$t=\mathbf{w}^T\phi \(\mathbf{x_n})+\varepsilon$

其中 t 为观测数据， x 为横坐标， w 为参数。

通过对likelihood function 的分析，发现最大化likelihood function的过程其实就是对 sum-of-sqaures error function的最小化：

$E_D\(\mathbf{w})=\frac{1}{2}\sum_{n=1}^{N}\left \{ t_n-\mathbf{w}^T \phi \(\mathbf{x_n})\right \}^2$

这是个很有意思的结论。因为SSE为大家普遍接受的一个衡量标准，如果能让SSE最小，则意味着让数据与模型之间的误差最小。

但同时，盲目地减少SSE会带来严重的overfitting。因为得到的模型会对测量数据有非常好的拟合，而模型对未来的数据进行的估计能力就很弱了。

为此，文中引入了一个约束项regularization term，给SSE，让最终的error function变为：

$\frac{1}{2}\sum_{n=1}^{N}\left \{ t_n -\mathbf{w}^T\phi \(\mathbf{x_n})\right \}^2+\frac{\lambda }{2}\mathbf{w}^T\mathbf{w}$

当最小化整个error function时，regularization term也会变小，这时，意味着估计得到的参数不会很离谱（因为严重overfitting时，参数随着数据剧烈变化，参数的norm非常大）。其中的 λ 控制需要约束的强度。

但如果不直接利用 likelihood function，而使用 Bayesian formula 得到posterior distribution，然后让posterior 概率最大，则可以即得到准备的估计又不会产生overfitting。这个方法被称为 Bayesian Linear Regression。

$P\(\mathbf{w}|t)=\frac{P\(t,\mathbf{w})}{P\(t)}=\frac{P\(t|\mathbf{w})P\(\mathbf{w})}{P\(t)}$

则有

$P\(\mathbf{w}|t)\propto P\(t|\mathbf{w})P\(\mathbf{w})$

假设prior distribution P(w)为高斯分布后，由于likelihood P(t|w)也是高斯分布，同时高斯分布是exponential family中的一员，所以后项分布 posterior distribution也是高斯分布。此时，最大化后项分布，两边取log，得到的结果竟然是-(SSE + 约束项) + const。与上面加了约束项的SSE一样。可见Bayesian linear regression能够很好地防止overfitting。

我认为likelihood是指，通过观测到的数据，在什么样的参数情况下，最有可能得到这些观测量。而如果对Prior distribution做了假设之后，就是通过这些观测值，直接估计参数。带有约束项的很大程度，是因为prior distribution对w的分布做了限定，限定是一个高斯分布，高斯分布中的noise通过variance表示出来，那么在posterior distritbution中，使error function最小就会对w的variance产生约束，这个约束也就是通过方程中的约束项表示出来。

posted @ 2012-08-27 16:48 YYNicholas 阅读(1626) 评论(0) 编辑收藏举报

会员力量，点亮园子希望

刷新页面返回顶部

天涯或海角

Likelihood Function 似然函数

公告