机器学习入门(五)之----线性回归(概率解释)

这里大家可能已经发现了,到目前为止,我们没有提到通常课本里所说的什么乱七八糟的正态分布啦,误差项啦,这其实是属于线性回归的概率解释。现在我们就来看一看线性回归的概率模型解释。

img

线性回归的概率解释

我们讲线性回归时用到了均方误差损失,但没有提到为什么损失函数要具有均方误差的形式。概率解释就给你其中一个理由。

下面我们假设输入变量和输出变量之间通过以下方程相关联,

\[\begin{equation} y^{(i)}=\theta^{T} x^{(i)}+\epsilon^{(i)} \end{equation} \]

其中,误差项\(\epsilon^{(i)}\) 表示没有被模型考虑到的特征,比如说,除了房子面积之外,是否学区房等其他我们没有考虑到的可能影响房价的因素,以及还表示一些随机噪声。
我们进一步假设各个误差项之间是独立同分布(independently and identically distributed,i.i.d.)于\(\mathcal{N}(0, \sigma)\) 。具体的,这个误差项的密度函数为,

\[\begin{equation} p\left(\epsilon^{(i)}\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(\epsilon^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{equation} \]

这也就意味着,

\[p\left(y^{(i)}|x^{(i)};\theta\right)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T}x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \]

我们这里\(p\left(y^{(i)}|x^{(i)};\theta\right)\) 之所以用分号,是因为\(\epsilon^{(i)}\) 是参数,我们这里没有把参数当成随机变量。也可以直接将输出的分布记为$y{(i)}|x;\theta\sim \mathcal{N}(0, \sigma) $ 。
给定数据设计矩阵\(X\) (design matrix)和参数\(\theta\) 之后。所有输出的概率可以记为\(p\left(\vec{y}|X;\theta\right)\) 。这时,我们通常把它看作是\(p\left(\vec{y}|X;\theta\right)\) 的函数。当我们想要把它明确看成参数\(\theta\) 的函数时,通常用另一个符号表示,

\[L(\theta)=L(\theta;X,\vec{y})=p\left(\vec{y}|X;\theta\right) \]

这叫做数据的似然函数(likelihood function)。
进一步,我们有,

\[\begin{equation} \begin{aligned} L(\theta) &=\prod_{i=1}^{m} p\left(y^{(i)} | x^{(i)} ; \theta\right) \\ &=\prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \end{aligned} \end{equation} \]

第一个等式是由于各个误差项之间的独立性。
现在若问在给定数据\(X\)\(\vec{y}\) 下,哪个参数才是最好的呢? 一个自然的想法是:在哪个参数下,数据\(X\)\(\vec{y}\) 更有可能出现,则这个参数就是最好的,也就是把最大化似然函数\(L(\theta)\) 的那个参数看成是最好的。注意我们这里把参数看成是变的。
给了将输入数据\(X\)\(\vec{y}\) 联系起来的概率模型,不仅可以最大化\(L(\theta)\) ,事实上,可以最大化任何一个关于\(L(\theta)\) 的增函数。因此我们一般最大化对数似然函数 (log likelihood function),也就是,

\[\begin{aligned} \ell(\theta) &=\log L(\theta) \\ &=\log \prod_{i=1}^{m} \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=\sum_{i=1}^{m} \log \frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2}}{2 \sigma^{2}}\right) \\ &=m \log \frac{1}{\sqrt{2 \pi} \sigma}-\frac{1}{\sigma^{2}} \cdot \frac{1}{2} \sum_{i=1}^{m}\left(y^{(i)}-\theta^{T} x^{(i)}\right)^{2} \end{aligned} \]

从最后一个等式可以看到最大化对数似然函数,正是最大化负的平方误差函数损失函数(忽略系数与没影响的常数)。完美解释了之前为什么要用平方误差函数:它对应于最大似然参数估计。

注意,概率模型的假设,对于最小化均方误差函数却不是必须的。就算没有这个解释,也存在其他解释来证明最小均方误差损失函数的合理性。还注意到假设中模型的方差对最后估计的参数没有影响。这点我们以后在指数分布族和一般线性模型中还会再讲。
总结一下,在相应概率模型假设下,前面的最小化均方误差过程就对应于寻找参数的最大似然估计

img

放松一下。

posted @ 2019-09-23 20:14  客忆安排  阅读(1272)  评论(0编辑  收藏  举报