摘要:
知识蒸馏的意义 能够压缩模型,提升模型性能 为什么能够压缩模型? !!!谁知道了告诉我一下!!! 为什么能提升模型精度? 栗子:分类问题有三个分类:猫,狗,乌龟,实际训练过程中,比如当前的数据真实标签是:猫,模型预测出猫,狗,乌龟的概率分别是0.6, 0.3, 0.1, 传统思路:不错,识别对了,猫 阅读全文
摘要:
one-hot矢量 栗子:比如分类问题中共有三个标签,猫、狗、猪,则表示猫的ong-hot向量就是[1, 0, 0],表示猪的ong-hot向量就是[0, 0, 1]; logits softmax的目的是把logits映射到0,1之间,因此logits可以理解为原生概率; 激活函数 可以理解为非线 阅读全文