Understanding and Mitigating the Label Noise in Pre-training on Downstream Tasks

Chen H., Wang J., Shah A., Tao R., Wei H., Xie X., Sugiyama M. and Raj B. Understanding and mitigating the label noise in pre-training on downstream tasks.

本文讨论如果预训练模型在训练的时候存在噪声, 会对后续的任务有什么影响, 并提出了一些解决方案.

符号说明

  • xX, inputs;
  • yY, labels;
  • D={(xi,yi)}i[N], clean dataset, [N]:={1,,N};
  • D^={(xi,y^i)}i[N], noisy pre-training dataset.
  • FRM×D, pre-trained features;

经验性的结果

  • 如上图所示, 当给数据集添加不同比例的噪声, ID (In-domain) 的情况会比 OOD (Out-of-domain) 的情况好很多.

  • 让我们额外定义一些指标, 它们会告诉我们噪声的一些其它影响.

  • Singular Value Entropy (SVE):

    SVE=i=1Dσij=1Dσjlogσij=1Dσj,

    奇异值谱的熵反映了预训练得到的特征蕴含的结构, 越大说明其中的结构越丰富.

  • Largest Singular Value Ratio (LSVR):

    LSVR=logσ1i=1Dσi.

    LSVR 反映的是最大奇异值的情况.

  • 如上图所示 (没看懂), 结论如下:
    1. 稍稍增加一定比例的噪声数据反而有利特征的泛化性;
    2. 当继续增加噪声数据的比例的时候, SVE 和 LSVR 继续增加 (即 pre-trained faetures 具有越来越多的结构性), 这个时候就没法再继续提高泛化性了.

Noisy Model Learning

  • 于是作者提出了一宗 noisy model learning 的方法, 它实际上一个训练的时候的正则化项:

    LNMTune=LMSE+LCOV+LSVD.

    其中

    LMSE=FF2ZZ222.

    LCOV=1Dij[C[Z]]i,j2,C(Z)=1M1i=1M(ziz¯)(ziz¯)T,z¯=1Mi=1Mzi.

    LSVD=σ1j=1Dσj.

    注意, Z=MLP(F).

代码

[official-code]

posted @   馒头and花卷  阅读(42)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2021-05-30 DAG-GNN: DAG Structure Learning with Graph Neural Networks
2019-05-30 matplotlib 高阶之patheffect (阴影,强调)
点击右上角即可分享
微信分享提示