2022 年 2月 26 日随笔档案 - teanon

2022年2月26日

摘要：问题描述预训练自然语言表征时，增加模型的参数量通常可以是模型在下有任务中性能提升。但是这种做法对硬件设备的要求较高（当下的各种SOTA模型动辄数亿甚至数十亿个参数，倘若要扩大模型规模，这个内存问题是无法回避的），也会显著地降低训练效率(由于通信开销与模型中参数的数量成正比，在分布式训练中训练速度将阅读全文

posted @ 2022-02-26 18:01 teanon 阅读(138) 评论(0) 推荐(0) 编辑

teanon

公告