摘要: Transefomer-based 的预处理模型往往很消耗资源,对运算性能要求极高,还有严格的延迟需求。 潜在补救方法:模型压缩。 这篇文章主要讲如何压缩Transformers,重点关注BERT。使用不同的方法对attention层 全连接层等不同部分的压缩会有不同的效果,来看看作者后面怎么说。 阅读全文
posted @ 2020-03-12 18:27 山竹小果 阅读(1073) 评论(0) 推荐(0) 编辑
摘要: 模型压缩可减少受训神经网络的冗余,由于几乎没有 BERT 或者 BERT-Large 模型可直接在 GPU 及智能手机上应用,因此模型压缩方法对于 BERT 的未来的应用前景而言,非常有价值。 一、压缩方法 1、剪枝——即训练后从网络中去掉不必要的部分。 这包括权重大小剪枝、注意力头剪枝、网络层以及 阅读全文
posted @ 2020-03-12 12:10 山竹小果 阅读(1101) 评论(0) 推荐(0) 编辑