Distributional Robustness Loss for Long-tail Learning

Samuel D. and Chechik G. Distributional robustness loss for long-tail learning. In International Conference on Computer Vision (ICCV), 2021.

本文利用 Distributionally Robust Optimization (DRO) 来试图解决长尾问题, 出发点是, 小样本的类内中心由于缺乏数据, 和真实的类内中心往往有很大差距, 故作者用 DRO 来优化一定区域内最坏的情况来缓解这一问题.

符号说明

  • (xi,yi),i=1,2,,n, 共 n 组数据;
  • yi{c1,c2,,ck}, 共 k 个类别;
  • fθ:xz, 将样本转换为特征 z;
  • Z:={z1,z2,,zn} 为训练样本特征的集合;
  • Sc:={zi|yi=c}, 为某一类特征的集合;
  • μ^c:=1|Sc|ziSczi 为一类的经验类内中心;
  • μc:=ExP|y=c[z] 为真实的类内样本的中心.

主要内容

Representation-learning loss

启发自对比损失, 我们可以定义

P(zi|μc):=exp(d(μc,zi))zZed(μc,z),

这里 d(,) 可以是常见的欧式距离或者 cos 相似度, 看代码应该选择的是前者.

我们可以通过如下损失进行训练:

LNLL(Z;P;θ)=cCw(c)(logP(Sc|μc))=cCw(c)ziScloged(μc,zi)zZed(μc,z).

通常设定 w(c)=1|Sc| 来缓解头部类别的主宰效应.

Robust loss

但是上面的损失有个问题, 在实际中, 我们无法预先知道类内中心 μc, 所以, 我们只能通过 μ^c 来估计, 但是这个效果的好坏取决于该类的样本的个数. 对于小样本来说, 肯定是没法很好满足的.

我们定义 p^c=N(μ^c,σ2I), 表示对条件分布 p(x|y=c)的一个经验估计.

Uc:={q|D(qp^c)ϵc},

其中 D 是两个分布的距离度量, 比如常见的 KL 的散度 (本文的选择). 倘若我们仅在服从正态分布 N(μ,σc2I)上进行讨论. 则 N(μq,σc2I),N(μ^c,σc2I) 之间的 KL 散度容易证得为:

12σc2d(μq,μ^c)2.

我们希望优化

minθcCsupqcUcExqc[(z;Qc;θ)],

其在 U 内的最坏的情况.

可行的上界

在推导上界之前, 我们注意到一个性质:

D(qp^c)=d(μq,μ^c)22σc2ϵcd(μq,μ^c)2ϵcσc=:Δc.

于是有:

d(μq,z)d(μ^c,z)+d(μ^c,μq),d(μ^c,z)d(μq,z)+d(μ^c,μq).

于是

P(z|μq):=Qc(z)=ed(μq,z)zZed(μq,z)=ed(μq,z)z+Sced(μq,z+)+zSced(μq,z)ed(μ^c,z)Δcz+Sced(μ^c,z+)Δc+zSced(μq,z)ed(μ^c,z)Δcz+Sced(μ^c,z+)Δc+zSced(μ^c,z)+Δc=ed(μ^c,z)2Δcz+Sced(μ^c,z+)2Δc+zSced(μ^c,z).

相应的

supqcUc(z;Qc;θ)loged(μ^c,z)2Δcz+Sced(μ^c,z+)2Δc+zSced(μ^c,z).

于是我们可以优化此上界, 定义为:

(1)LRobust=cCw(c)zScloged(μ^c,z)2Δcz+Sced(μ^c,z+)2Δc+zSced(μ^c,z).

Joint loss

最后, 作者采用的是如下的一个联合损失:

L=λLCE+(1λ)LRobust.

细节

  1. 注意到 (1) 中的分母部分是遍历 Z 的, 实际中是采取一个 batch 的特征;

  2. 为了 mu^c, 作者选择在每个 epoch 开始前, 遍历数据以估计 μ^c;

  3. 实际训练采取的是长尾分布中常见的两阶段训练;

  4. 关于 Δc 的选取, 可以有

    • 不同类别共享超参数 Δ;
    • 按照 Δ/n 的方式定义的超参数;
    • 可学习的 Δc
      通过实现来看, 似乎可学习的 Δ 的效果是最好的;
  5. Z 以及 μ^c 会首先通过标准训练进行一个初始化.

代码

[official]

posted @   馒头and花卷  阅读(227)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2021-06-09 BBN+
2019-06-09 Proximal Algorithms 4 Algorithms
点击右上角即可分享
微信分享提示