摘要: Bert不完全手册5. BERT推理提速?训练提速!内存压缩!Albert Albert是A Lite Bert的缩写,通过词向量矩阵分解,以及transformer block的参数共享,大大降低了Bert的参数量级。在我读Albert论文之前,因为Albert和蒸馏,剪枝一起被归在模型压缩方案,导致我一直以为Albert也是为了优化Bert的推理速度,但其实Albert主要用在模型参数(内存)压缩,以及训练速度优化,在推理速度上并没有提升。正在施工中的文本分类库里也加入了Albert预训练模型,有在chinanews上已经微调好可以开箱即用的模型,同时支持半监督,领域迁移,降噪loss,蒸馏等模型优化项,感兴趣戳这里SimpleClassification 阅读全文
posted @ 2022-05-13 09:41 风雨中的小七 阅读(859) 评论(0) 推荐(0) 编辑