为什么说逻辑回归实质是最大似然估计，而线性回归实质是最小二乘法？

根据已知特征值X和标签结果Y,我们利用线性回归模型（为了简化，作者以一元线性回归为例说明）可以得出 y_i^=wx_i+b。

损失函数：loss=Σ(y_i-y_i^)² ，为了得到更加准确的拟合模型，我们的目标就转化为使损失函数loss最小，即：

argmin loss=argmin Σ(y_i-y_i^)²=argmin Σ(y_i-wx_i-b)²

这里就是大家比较熟悉的最小二乘法(即最小化误差平方和)。

因此线性回归其实质就是利用最小二乘法去计算各种参数(w,b)。

但是对于逻辑回归，为什么不能用最小二乘法了呢？

我们知道逻辑回归，同线性回归一样，可以计算预测值： y_i^=wx_i+b

但是对于逻辑回归的标签结果是0或者1，如何使二者能够发生关联呢，有一种神奇的激活函数就是Sigmoid函数，可以将变量转化为0或者1，

sigmoid函数表示： f(z)=1/(1+e^-z)，因此，可以转化为 f(x)=1/(1+e^-(wx+b)) 。这时也许你想，

同样loss=Σ(y_i-f(x_i))² 这样我们就可以像线性回归那样，利用最小二乘法去计算参数值了。

可是好事多磨啊，要想得到一个最小二乘的最优解，这个函数最好是凸函数

（为什么说最好是呢，其实不是凸函数，也能求得部分解，但不能保证是最优解，可能是一些鞍点）

（什么是凸函数:对于区间[a,b]上定义的f(x)满足 f((x1+x2)/2)*2⩽f(x1)+f(x2) ,则称f(x)为凸函数）

这个函数并不是一个关于w和b的凸函数，大家可以去证明。

那如何去求解参数值呢？

此时最大似然函数就出现了。该函数的作用就是专门根据观测结果去估计模型参数的。

前面我们已经知道：

f(x)=1/(1+e^-(wx+b))，该函数取值区间[0,1]

由于二值分类很像二项分布，我们把单一样本的类值假设为发生概率，即：

P(y=1|x;w;b)=f(x) 　　（即某个样本划分为类型为1的概率）

P(y=0|x;w;b)=1-f(x)　　（即某个样本划分为类型为0的概率）

因此，合并两个函数可以得到：

P(y|x;w;b)=f(x_i)^yⁱ(1-f(x_i))^(1-yi) (因为yi只有两个取值0或者1）

我们的目标就是所有样本发生的概率最大化 ,即最大似然函数为：

L(w,b)=argmax ∏ f(x_i)^yⁱ(1-f(x_i))^(1-yi)

求对数：

argmax Σ y_ilogf(x_i)+(1-y_i)log(1-f(x_i))

即：

argmin -Σ y_ilogf(x_i)+(1-y_i)log(1-f(x_i))

该函数为凸函数，很容易求得最小值，结果为：

∂L/∂w=Σ(x_i(y_i-f(x_i)))

∂L/∂b=Σ(y_i-f(x_i))

结论：由此看来，线性回归其实质就是利用最小二乘法求得各个参数值，而逻辑回归由于其最小二乘函数是非凸函数，只能借由最大似然函数来求得各个参数。

posted @ 2020-01-11 13:03 dhl_345 阅读(966) 评论(0) 收藏举报

刷新页面返回顶部

dhl_345