Label smoothing

label Smothing相较交叉熵函数引入了一个factor机制,一般取0.1,它的好处就是:
  • 使用了Label Smoothing损失函数后,在训练阶段预测正确时 loss 不会下降得太快,预测错误的時候 loss 不会惩罚得太多,使其不容易陷入局部最优点,这在一定程度可以抑制网络过拟合的现象。
  • 对于分类类别比较接近的场景,网络的预测不会过于绝对,在引入Label Smoothing技巧后,通过分配这些少数的几率也可以使得神经网络在训练的时候不这么绝对。
  • 在实际调参的一些经验分享如下:

    • 不管是在object detection的分类网络或者是多分类网络导入label smoothing皆有不错的效果,基本上算轻松又容易提升准确度的做法
    • 当数据量足够多的时候,Label smoothing这个技巧很容易使网络变得欠拟和。
    • factor通常设置为0.1,之前做对比实验试过使用0.2,0.3等参数,会发现皆无较好的效果,反而使网络变得难以收敛。
    • 可以利用label smoothing的特性来做点微小的改动,比如遇上相似类型的事物时,可以将factor分配给相似的类别,而不是全部类别,这通常会有不错的效果
    • 2022-06-3011:39:47

 

笔记来自:模型优化之Label Smoothing - 知乎 (zhihu.com)1

posted @   yeahHiHi  阅读(134)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· winform 绘制太阳,地球,月球 运作规律
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
点击右上角即可分享
微信分享提示