从最大似然估计到最小二乘法

这一部分内容和吴恩达老师的CS229前面的部分基本一致,不过那是很久之前看的了,我尽可能写的像吴恩达老师那样思路缜密。

1.假设

  之前我们了解过最大似然估计就是最大化似然函数$$L(\theta) = \sum log(p(x_{i}|\theta))$$

  来确定参数\(\theta\),假设我们独立测量的结果X(x1,x2,x3...)是有误差的,且每个测量结果的误差分布相同,即独立同分布。我们再假定测量结果满足以真实结果\(f(x|\theta)\)为均值,方差为\(\sigma\),标准差为\(\delta\)的高斯分布,注意这里的\(\theta\)指最优的参数解,但它是未知的。

2.推导

  在给出一定假设后,我们根据最大似然估计的方法来进行推到。首先我们假定测量结果的分布函数后,可以得到以\(\theta\)为参数时,预测结果等于测量结果的概率:

  $$p(x=xi|\theta) = \frac{1}{\sqrt{2\pi}\delta} e^{-\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}}$$

  进而对数似然函数变为:

  $$L(\theta) = \frac{1}{\sqrt{2\pi}\delta}\sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$

  我们最大化似然函数,等同于最大化求和部分:

  $$\widehat(L)(\theta) = \sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$

  我们要求的\(\theta\)有:

  $$\theta = argmax \sum -\frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$

  等同于:

  $$\theta = argmin \sum \frac{(xi-f(x|\theta))^{2}}{2\sigma^{2}}$$

  进一步化简有:

  $$\theta = argmin \sum (xi-f(x|\theta))^{2}$$

 3.分析

  通过上面推导,我们发现,在假定测量误差满足独立同分布时,最大似然估计和最小二乘法有一定的相通性,但这并不表明二者是相同的!最大似然估计是要满足预测结果和测量结果一致的概率最大,而最小二乘法估计要满足预测结果和测量结果尽可能接近(二范式距离的平方最小),二者的测度和出发点不一样,但又有联系。

posted @ 2019-07-10 21:25  SshunWang  阅读(923)  评论(0编辑  收藏  举报