摘要: DynaBERT: Dynamic BERT with Adaptive Width and Depth 论文中作者提出了新的训练算法,同时对不同尺寸的子网络进行训练,通过该方法训练后可以在推理阶段直接对模型裁剪。依靠新的训练算法,本文在效果上超越了众多压缩模型,比如DistillBERT、Tiny 阅读全文
posted @ 2020-05-22 10:18 山竹小果 阅读(1316) 评论(0) 推荐(1) 编辑