摘要: 模型压缩相关 [github code] 本文研究对BERT的剪枝。结论:BERT可以在预训练时进行一次修剪,而不是在不影响性能的情况下对每个任务进行单独修剪。 针对不同水平的修剪: 低水平的修剪(30-40%)根本不会增加训练前的损失或影响下游任务的转移。中等水平的修剪会增加训练前的损失,并阻止有 阅读全文
posted @ 2020-03-13 17:41 山竹小果 阅读(741) 评论(1) 推荐(1) 编辑