Samuel D. and Chechik G. Distributional robustness loss for long-tail learning. In International Conference on Computer Vision (ICCV), 2021.
概
本文利用 Distributionally Robust Optimization (DRO) 来试图解决长尾问题, 出发点是, 小样本的类内中心由于缺乏数据, 和真实的类内中心往往有很大差距, 故作者用 DRO 来优化一定区域内最坏的情况来缓解这一问题.

符号说明
- (xi,yi),i=1,2,⋯,n, 共 n 组数据;
- yi∈{c1,c2,⋯,ck}, 共 k 个类别;
- fθ:x→z, 将样本转换为特征 z;
- Z:={z1,z2,⋯,zn} 为训练样本特征的集合;
- Sc:={zi|yi=c}, 为某一类特征的集合;
- ^μc:=1|Sc|∑zi∈Sczi 为一类的经验类内中心;
- μc:=Ex∼P|y=c[z] 为真实的类内样本的中心.
主要内容
Representation-learning loss
启发自对比损失, 我们可以定义
P(zi|μc):=exp(−d(μc,zi))∑z′∈Ze−d(μc,z′),
这里 d(⋅,⋅) 可以是常见的欧式距离或者 cos 相似度, 看代码应该选择的是前者.
我们可以通过如下损失进行训练:
LNLL(Z;P;θ)=∑c∈Cw(c)(−logP(Sc|μc))=−∑c∈Cw(c)∑zi∈Scloge−d(μc,zi)∑z′∈Ze−d(μc,z′).
通常设定 w(c)=1|Sc| 来缓解头部类别的主宰效应.
Robust loss
但是上面的损失有个问题, 在实际中, 我们无法预先知道类内中心 μc, 所以, 我们只能通过 ^μc 来估计, 但是这个效果的好坏取决于该类的样本的个数. 对于小样本来说, 肯定是没法很好满足的.
我们定义 ^pc=N(^μc,σ2I), 表示对条件分布 p(x|y=c)的一个经验估计.
Uc:={q|D(q∥^pc)≤ϵc},
其中 D 是两个分布的距离度量, 比如常见的 KL 的散度 (本文的选择). 倘若我们仅在服从正态分布 N(μ,σ2cI)上进行讨论. 则 N(μq,σ2cI),N(^μc,σ2cI) 之间的 KL 散度容易证得为:
12σ2cd(μq,^μc)2.
我们希望优化
minθ∑c∈Csupqc∈UcEx∼qc[ℓ(z;Qc;θ)],
其在 U 内的最坏的情况.
可行的上界
在推导上界之前, 我们注意到一个性质:
D(q∥^pc)=d(μq,^μc)22σ2c≤ϵc→d(μq,^μc)≤√2ϵcσc=:Δc.
于是有:
d(μq,z)≤d(^μc,z)+d(^μc,μq),d(^μc,z)≤d(μq,z)+d(^μc,μq).
于是
P(z|μq):=Qc(z)=e−d(μq,z)∑z′∈Ze−d(μq,z′)=e−d(μq,z)∑z+∈Sce−d(μq,z+)+∑z−∉Sce−d(μq,z−)≥e−d(^μc,z)−Δc∑z+∈Sce−d(^μc,z+)−Δc+∑z−∉Sce−d(μq,z−)≥e−d(^μc,z)−Δc∑z+∈Sce−d(^μc,z+)−Δc+∑z−∉Sce−d(^μc,z−)+Δc=e−d(^μc,z)−2Δc∑z+∈Sce−d(^μc,z+)−2Δc+∑z−∉Sce−d(^μc,z−).
相应的
supqc∈Ucℓ(z;Qc;θ)≤−loge−d(^μc,z)−2Δc∑z+∈Sce−d(^μc,z+)−2Δc+∑z−∉Sce−d(^μc,z−).
于是我们可以优化此上界, 定义为:
LRobust=−∑c∈Cw(c)∑z∈Scloge−d(^μc,z)−2Δc∑z+∈Sce−d(^μc,z+)−2Δc+∑z−∉Sce−d(^μc,z−).(1)
Joint loss
最后, 作者采用的是如下的一个联合损失:
L=λLCE+(1−λ)LRobust.
细节
-
注意到 (1) 中的分母部分是遍历 Z 的, 实际中是采取一个 batch 的特征;
-
为了 ^muc, 作者选择在每个 epoch 开始前, 遍历数据以估计 ^μc;
-
实际训练采取的是长尾分布中常见的两阶段训练;
-
关于 Δc 的选取, 可以有
- 不同类别共享超参数 Δ;
- 按照 Δ/√n 的方式定义的超参数;
- 可学习的 Δc
通过实现来看, 似乎可学习的 Δ 的效果是最好的;
-
Z 以及 ^μc 会首先通过标准训练进行一个初始化.
代码
[official]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
2021-06-09 BBN+
2019-06-09 Proximal Algorithms 4 Algorithms