摘要: 整体工作 这篇文章针对当前大模型训练,激活数据在GPU内存中占用量高、主导内存使用,影响限制着模型训练性能的问题,提出了一种解决方案:将激活卸载到比GPU、CPU内存更高容量的NVMe ssd上。通过设计使I/O与计算重叠,即保留了相比存储在CPU内存中近似的性能,又比分层完全重计算获得更好的内存节 阅读全文
posted @ 2024-08-25 10:13 O_fly_O 阅读(106) 评论(0) 推荐(0) 编辑