ZeRO: Memory Optimizations Toward Training Trillion Parameter Models(论文阅读)

作者：Samyam Rajbhandari, Jeff Rasley, Olatunji Ruwase, Yuxiong He
{samyamr, jerasley, olruwase, yuxhe}@microsoft.com

核心思想

类似参数服务器思想：当你的模型大到一个计算单元放不下的时候（cpu内存放不下或者gpu内存放不下），可以把你的模型分布式的存在各个地方。当你计算的时候再去往这个分布式存储里把你的模型拿下来，要多少拿多少，用完之后就丢掉，以保证当前计算的时候有你需要的模型。

用通讯换内存

posted @ 2022-06-17 15:20 小筱痕阅读(246) 评论(0) 收藏举报

刷新页面返回顶部