摘要: 知识蒸馏--Distilling the Knowledge in a Neural Network 动机 在普遍的训练当中,经过 softmax 后都是最大化正标签的概率,最小化负标签的概率。但是这样训练的效果导致了正标签的概率输出越来越接近 1, 负标签的概率越来越接近 0, 使得原本的负标签的 阅读全文
posted @ 2021-11-18 12:12 owo_owo 阅读(405) 评论(2) 推荐(2) 编辑