会员
周边
捐助
新闻
博问
闪存
赞助商
所有博客
当前博客
我的博客
我的园子
账号设置
简洁模式
...
退出登录
注册
登录
teanon
博客园
首页
新随笔
联系
订阅
管理
2022年2月26日
ALBERT论文简读
摘要: 问题描述 预训练自然语言表征时,增加模型的参数量通常可以是模型在下有任务中性能提升。但是这种做法对硬件设备的要求较高(当下的各种SOTA模型动辄数亿甚至数十亿个参数,倘若要扩大模型规模,这个内存问题是无法回避的),也会显著地降低训练效率(由于通信开销与模型中参数的数量成正比,在分布式训练中训练速度将
阅读全文
posted @ 2022-02-26 18:01 teanon
阅读(138)
评论(0)
推荐(0)
编辑
公告