逻辑回归中交叉熵损失函数的梯度推导

我们首先定义损失函数和模型预测的形式。对于二分类逻辑回归,模型预测使用sigmoid函数,即:

y^i=σ(zi)=11+ezi

其中,zi=Xiθ是模型对第i个样本的线性预测,Xi是样本的特征向量,θ是模型参数。

对于单个样本的交叉熵损失,我们有:

L(yi,y^i)=[yilog(y^i)+(1yi)log(1y^i)]

整个数据集上的平均损失为:

J(θ)=1Ni=1N[yilog(y^i)+(1yi)log(1y^i)]

为了找到最小化损失函数J(θ)的参数θ,我们需要计算J(θ)关于θ的梯度。首先计算y^i关于zi的导数:

dy^idzi=ddzi(11+ezi)=y^i(1y^i)

然后,我们将损失函数对zi求导:

L(yi,y^i)zi=L(yi,y^i)y^idy^idzi=(yiy^i1yi1y^i)y^i(1y^i)=yi(1y^i)+(1yi)y^i=y^iyi

接下来,我们利用链式法则计算J(θ)关于θj的导数:

J(θ)θj=1Ni=1N(y^iyi)xij

因此,整个参数θ的梯度向量为:

θJ(θ)=1NXT(y^y)

其中,X是包含所有样本特征的矩阵,y^是模型预测值的向量,y是真实标签的向量。

这就是梯度下降更新参数θ时使用的梯度表达式,用于指导如何调整θ以减少损失函数J(θ)的值。

posted @   C-Alen  阅读(541)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
Panorama - X-Ray Dog
00:00 / 00:00
An audio error has occurred, player will skip forward in 2 seconds.
  1. 1 Gala
  2. 2 Gala
  3. 3 Gala
  4. 4 Panorama X-Ray Dog
  5. 5 光亮 周深
点击右上角即可分享
微信分享提示