摘要: 前言 论文提出了一个新的框架,“prune, then distill”,该框架首先剪枝模型,使其更具可移植性,然后提取给student。并进一步从理论上证明了剪枝后的teacher在蒸馏中起到正则化器的作用,减少了泛化误差。在此基础上,还提出了一种新的神经网络压缩方案,其中student网络是基于 阅读全文
posted @ 2022-08-28 16:40 CV技术指南(公众号) 阅读(393) 评论(0) 推荐(0) 编辑