Knowledge Distillation from A Stronger Teacher

Huang T., You S., Wang F., Qian C. and Xu C. Knowledge distillation from a stronger teacher. NIPS, 2022.

用 Pearson correlation coefficient 来替代一般的 KL 散度用于蒸馏.

DIST

  • 首先, 作者针对不同的 model size ResNet18, Resnet50 和不同的训练策略 B1, B2 (B2 更复杂一点, 通过 B2 训练得到的模型一般效果更好一点) 训练得到不同的教师模型. 比较在这些不同的教师模型的监督下, 学生模型训练后和教师模型的 KL 散度的差异:

  • 可以发现, 有如下的结论:

    1. 在相同的策略下, 教师和学生的模型差距越大, 最后的 KL 散度越大;
    2. 在相同的模型大小下, 用更复杂的策略训练得到差距更大.
  • 需要知道, KL 散度越大, 说明学生难以模仿教师的输出, 这启发作者抛弃传统的 KL 散度, 转向更简单更一般的对齐方式.

  • KL 散度要求学生的输出分布和教师的分布尽可能一致, 而 DIST 仅要求二者是线性相关即可, 即:

    dp(u,v):=1ρp(u,v),ρp(u,v):=Cov(u,v)Std(u)Std(v),

    尽可能小.

  • 假设 Y(t),Y(s)RB×C 分别为教师和学生模型的输出概率, B,C 分别是 batchsize 和 类别数目.

  • DIST 考虑类间和类内的线性相关性, 即:

    Lintra:=1Cj=1Cdp(Y:,j(s),Y:,j(t)),Linter:=1Bi=1Bdp(Yi,:(s),Yi,:(t)).

  • 最后的训练学生模型的损失为:

    Ltr=αLcls+βLinter+γLintra.

代码

[official]

posted @   馒头and花卷  阅读(78)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 单元测试从入门到精通
· 上周热点回顾(3.3-3.9)
· winform 绘制太阳,地球,月球 运作规律
历史上的今天:
2022-09-26 node2vec: Scalable Feature Learning for Networks
2021-09-26 -former: Infinite Memory Transformer
2020-09-26 Learning a Similarity Metric Discriminatively, with Application to Face Verification
点击右上角即可分享
微信分享提示