Hinge Loss
https://blog.csdn.net/qq_36758914/article/details/103546383
https://blog.csdn.net/weixin_45268911/article/details/107279945
https://blog.csdn.net/Stockholm_Sun/article/details/97948446
Hinge Loss
表达式为:
L i = ∑ j ≠ y i m a x ( 0 , s j − s y i + 1 ) L_{i}=\sum_{j\ne y_{i}}max(0, s_{j}-s_{y_{i}}+1)
L
i
=
j
=y
i
∑
max(0,s
j
−s
y
i
+1)
实际上可以写成:
f ( n ) = ∑ j ≠ y i { 0 , if s y i > s j + 1 s j − s y i + 1 , otherwise f(n) =\sum_{j\ne y_{i}}
{0,sj−syi+1,if syi>sj+1otherwise
{0,if syi>sj+1sj−syi+1,otherwise
f(n)=
j
=y
i
∑
{
0,
s
j
−s
y
i
+1,
if s
y
i
>s
j
+1
otherwise
其中s y i s_{y_{i}}s
y
i
是指第i ii个样本的对应的其正确标签的得分,s j s_{j}s
j
是指这个样本对应的第j jj个标签的得分。
即对于第i ii个样本,有:
s j = f ( x i ; W ) j s_{j}=f(x_{i};W)_{j}
s
j
=f(x
i
;W)
j
s y i = f ( x i ; W ) y i s_{y_{i}}=f(x_{i};W)_{y_{i}}
s
y
i
=f(x
i
;W)
y
i
比如下图中,对三张图片进行分类,一共有c a t , c a r , f r o g cat, car, frogcat,car,frog三类。每张图片对应的每个类别的得分如下:
则对于第一张图片,它的hinge loss 为:
( 5.1 − 3.2 + 1 ) + 0 = 2.9 (5.1-3.2+1)+0=2.9
(5.1−3.2+1)+0=2.9
对于第二张图片,它的hinge loss 为:
0 + 0 = 0 0+0=0
0+0=0
对于第三张图片,它的hinge loss 为:
( 2.2 − ( − 3.1 ) + 1 ) + ( 2.5 − ( − 3.1 ) + 1 ) = 12.9 (2.2-(-3.1)+1)+(2.5-(-3.1)+1)=12.9
(2.2−(−3.1)+1)+(2.5−(−3.1)+1)=12.9
所以对于这个包含三张图片的数据集来说,其hinge loss为:
L = 1 N ∑ i = 1 N L i L=\frac{1}{N}\sum_{i=1}^{N}L_{i}
L=
N
1
i=1
∑
N
L
i
= ( 2.9 + 0 + 12.9 ) / 3 = 5.27 =(2.9+0+12.9)/3=5.27
=(2.9+0+12.9)/3=5.27
注:使L = 0 L=0L=0的权重W WW并不唯一,如2 W 2W2W同样可以使损失为0。
我们关心的是分类器在测试集而不是训练集中的效果,所以为了防止过拟合,我们使用正则化。
L = 1 N ∑ i = 1 N ∑ j ≠ y i m a x ( 0 , f ( x i ; W ) j − f ( x i ; W ) y i + 1 ) + λ R ( W ) L=\frac{1}{N}\sum_{i=1}^{N}\sum_{j\ne y_{i}}max(0, f(x_{i};W)_{j}-f(x_{i};W)_{y_{i}}+1)+\lambda R(W)
L=
N
1
i=1
∑
N
j
=y
i
∑
max(0,f(x
i
;W)
j
−f(x
i
;W)
y
i
+1)+λR(W)
L 2 L2L2正则化中,R ( W ) = ∑ k ∑ l W k , l 2 R(W)=\sum_{k}\sum_{l}W_{k, l}^{2}R(W)=∑
k
∑
l
W
k,l
2
。
L 1 L1L1正则化中,R ( W ) = ∑ k ∑ l ∣ W k , l ∣ R(W)=\sum_{k}\sum_{l}|W_{k, l}|R(W)=∑
k
∑
l
∣W
k,l
∣。
弹性网络(E l a s t i c n e t Elastic\;netElasticnet)正则化中,R ( W ) = ∑ k ∑ l β W k , l 2 + ∣ W k , l ∣ R(W)=\sum_{k}\sum_{l}\beta W_{k, l}^{2}+|W_{k, l}|R(W)=∑
k
∑
l
βW
k,l
2
+∣W
k,l
∣。(其实就是L 1 + L 2 L1+L2L1+L2)
Softmax loss
输入x i x_{i}x
i
时,将一张图片定义为第k kk个标签的概率为P ( Y = k ∣ X = x i ) = e s k ∑ j e s j P(Y=k|X=x_{i})=\frac{e^{s}k}{\sum_{j}e^{s}j}P(Y=k∣X=x
i
)=
∑
j
e
s
j
e
s
k
,其中s = f ( x i ; W ) s=f(x_{i}; W)s=f(x
i
;W)。
定义L i = − l o g P ( Y = y i ∣ X = x i ) = − l o g ( e s k ∑ j e s j ) L_{i}=-logP(Y=y_{i}|X=x_{i})=-log(\frac{e^{s}k}{\sum_{j}e^{s}j})L
i
=−logP(Y=y
i
∣X=x
i
)=−log(
∑
j
e
s
j
e
s
k
)。
具体计算过程如下图:
同样地,对于s o f t m a x softmaxsoftmax,正则化同样适用解决过拟合问题。
————————————————
版权声明:本文为CSDN博主「cofisher」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_36758914/article/details/103546383
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 分享一个免费、快速、无限量使用的满血 DeepSeek R1 模型,支持深度思考和联网搜索!
· 基于 Docker 搭建 FRP 内网穿透开源项目(很简单哒)
· ollama系列1:轻松3步本地部署deepseek,普通电脑可用
· 按钮权限的设计及实现
· 【杂谈】分布式事务——高大上的无用知识?
2020-10-03 无法启用internet连接共享,为LAN连接配置的IP地址需要使用自动IP寻址