Decoupled Knowledge Distillation
Zhao B., Cui Q., Song R., Qiu Y. and Liang J. Decoupled knowledge distillation. CVPR, 2022.
概
对普通的 KD (Knowledge Distillation) 损失解耦得到 Target Class Knowledge Distillation (TCKD) 和 Non-target Class Knowledge Distillation (NCKD) 两部分. 由此提出新的蒸馏损失以强化 NCKD 部分
符号说明
-
为 logits, 表示类别个数;
-
正常的概率估计:
-
二分概率估计:
-
Non-target 上的概率分布:
-
显然有:
DKD
-
令 分别表示 teacher, student 的概率分布, 则一般的蒸馏损失为:
-
将 (1) 代入其中可以得到:
-
故:
-
TCKD 关注 target 的概率的差异, 而 NCKD 则是反映了在 non-target class 中的一个一致性.
-
这里需要关注的一个点是 NCKD 的权重 , 显然, 当教师模型对当前的分类特别自信的时候 (即 ), NCKD 的权重大大降低了. 不过, 作者认为, 这个时候, NCKD 实际上也是很重要的.
-
其次, 这个系数有时候不能够很好的反应难度, 显然, 当类别数很多的时候, 就很难接近 1.
-
总之, 作者希望更加灵活地控制调节这两个部分:
-
此外, 作者做了一些很有意思的实验:
-
如上图所示, 仅 NCKD 即可媲美 KD, 这说明 KD 中实际效果大抵来源于 NCKD 部分. 比如, 作者通常设置 以达到最佳的性能.
-
其实, 总的来看, KD 里的 temperature 其实起到的是一个类似的作用, 某种程度上, 它把 降低从而加重了 NCKD 部分.
代码
[official]
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
2022-11-02 Estimating or Propagating Gradients Through Stochastic Neurons for Conditional Computation
2020-11-02 Reliable evaluation of adversarial robustness with an ensemble of diverse parameter-free attacks
2020-11-02 Boosting Adversarial Training with Hypersphere Embedding