摘要: 蒸馏神经网络取名为蒸馏(Distill),其实是一个非常形象的过程。 我们把数据结构信息和数据本身当作一个混合物,分布信息通过概率分布被分离出来。首先,T值很大,相当于用很高的温度将关键的分布信息从原有的数据中分离,之后在同样的温度下用新模型融合蒸馏出来的数据分布,最后恢复温度,让两者充分融合。这也 阅读全文
posted @ 2018-09-20 10:47 Jerry_Jin 阅读(24929) 评论(3) 推荐(5) 编辑