会员
周边
众包
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
deephub
overfit深度学习
博客园
首页
新随笔
联系
订阅
管理
2021年12月13日
BERT 模型的知识蒸馏: DistilBERT 方法的理论和机制研究
摘要: 如果你曾经训练过像 BERT 或 RoBERTa 这样的大型 NLP 模型,你就会知道这个过程是极其漫长的。由于其庞大的规模,训练此类模型可能会持续数天。当需要在小型设备上运行它们时,就会发现正在以巨大的内存和时间成本为日益增长的性能付出代价。 有一些方法可以减轻这些痛苦并且对模型的性能影响很小,这
阅读全文
posted @ 2021-12-13 11:18 deephub
阅读(224)
评论(0)
推荐(0)
编辑
公告