Logistic 回归模型的参数估计为什么不能采用最小二乘法？

　　logistic回归模型的参数估计问题，是可以用最小二乘方法的思想进行求解的，但和经典的（或者说用在经典线性回归的参数估计问题）最小二乘法不同，是用的是“迭代重加权最小二乘法”（IRLS, Iteratively Reweighted Least Squares）。本质上不能使用经典的最小二乘法的原因在于，logistic回归模型的参数估计问题不能“方便地”定义“误差”或者“残差”。

下面是对经典线性回归问题和logistic回归问题的一些讨论。

（1）最小二乘/最小二乘法、最小二乘估计和极大似然估计的区别

　　最小二乘/最小二乘法可以看成是一种朴素的思想，即如果某种差异可以量化为实数，那么我们就可以（自然地）把这些差异的平方相加，将这个和作为一种目标函数。我记得我们高代有节课专门讲过“二乘”的矩阵形式，以及相关的“最小”这一优化目标的矩阵运算等等。

　　最二乘估计是指用最小二乘法对统计模型中的参数进行估计的估计方法。除了最小二乘估计，还有常用的极大似然估计、矩估计等参数估计的方法。

　　对经典线性回归模型的参数估计来说，最小二乘估计和极大似然估计的结果是等价的，换句话说，对于其他模型，这种等价性就可能不成立。

　　对于logistic回归模型来说，极大似然估计是没有解析解（closed form solution）的。最小二乘估计和极大似然估计的不同在于优化的目标函数不同。最小二乘估计因为是用的最小二乘法，目标函数就是前面提到的那种“自然地”对“误差”或者“残差”的处理方式（这里“误差”和“残差”之所以加引号，是因为我们为了理解方便赋予了操作对象“某种差异”实际的意义）；

　　极大似然估计的目标函数是似然函数。可见，前者的目标函数依赖于我们对“误差”的选取，而后者依赖于数据的具体概率分布。最小二乘估计有很多良好的性质，这些性质是不依赖于具体概率分布的，仅需要满足Gauss-Markov假设即可。

（2）经典线性回归模型和logistic回归模型的区别

经典线性回归模型常用的形式是

$y=\textbf{X}\beta+\epsilon$ （*），

其中 $\epsilon$ 服从0均值 $\sigma^2$ 的正态分布（或者更一般的，服从Gauss-Markov假设：0均值、等方差、不相关，即不一定是正态的）；

logistic回归模型常用的形式是

$\rm{Pr}(Y=y)=\pi^y(1-\pi)^{1-y}$ , $\rm {logit}(\pi)=\textbf{X}\beta$ （**）

如果只看这两种表示方式，可能会觉得这两个模型差别很大，比如说，logistic模型（**）怎么没有误差项呢？ $y$ 在（*）里面是服从有2个参数的正态分布 $N(\mu,\sigma^2)$ ，在（**）里面是服从1个参数的伯努利分布 $Bernoulli (p)$ ，为什么 $\textbf{X}\beta$ 在（**）中模拟了全部的未知参数，而在（*）中只模拟了一个参数 $\mu$ 。

实际上，logistic模型可以看成是 $\textbf{X}\beta$ 加上一个logistic 误差项，即

$y=1,\textbf{X}\beta+\epsilon>0$ $y=0, \textbf{X}\beta+\epsilon \leq0$

其中 $\epsilon$ 服从标准的logistic分布。这样，logistic模型就有一个潜变量的表达形式：

$z=\textbf{X}\beta+\epsilon$ , $y=f(z)$

这里的潜变量连接函数 $f()$ 具体说就是大于零取1，其他情况取0。这样来说，（*）和（**）都可以写成有误差项的表示。

另一方面，从条件期望的表示来看，

模型（*）可以写成： $\mathbb{E} (Y=y | \textbf{X})=\mu$ , $\textbf{X}\beta=g(\mu)=\mu$

模型（**）可以写成： $\mathbb{E} (Y=y | \textbf{X})=\pi$ , $\textbf{X}\beta=h(\pi)=\rm{logit}(\pi)=\log(\frac{\pi}{1-\pi})$

可见两个模型分别靠一个函数 $g,h$ 将 $\textbf{X}\beta$ 和参数相连接，只是 $g$ 具体来说是identity函数， $h$

是logit函数。这类模型都可以统一到广义线性回归模型GLM里面。

最后再点一下题，经典的最小二乘法可以处理比较方便写出“残差”的模型的参数估计，比如（*）中的“残差”是连续的实数，因为 $\textbf{X}\beta$ 是模拟的“均值”；而在（**）中的“残差”是离散的0和1，因为 $\textbf{X}\beta$ 模拟的是产生这些0和1的“概率”。但是如果换成极大似然估计，这些差异都可以统一起来，用极大化似然函数的方法进行求解。

转自：链接：https://www.zhihu.com/question/23817253/answer/85998617

posted @ 2021-04-14 15:18 北极星！阅读(1260) 评论(0) 编辑收藏举报

刷新页面返回顶部

北极星！

最迷人的地方不是远方，而是在这里却没有欣赏到此刻的美丽—北极星!

Logistic 回归模型的参数估计为什么不能采用最小二乘法？

公告