随笔分类 - 论文阅读
摘要:整体工作 这篇文章针对当前大模型训练,激活数据在GPU内存中占用量高、主导内存使用,影响限制着模型训练性能的问题,提出了一种解决方案:将激活卸载到比GPU、CPU内存更高容量的NVMe ssd上。通过设计使I/O与计算重叠,即保留了相比存储在CPU内存中近似的性能,又比分层完全重计算获得更好的内存节
阅读全文
摘要:阅读思考问题: Please briefly describe how hierarchical dependency graphs are built in FlexGraph, and point out the specific stage in the NAU abstraction whe
阅读全文
摘要:[论文阅读] The Google File System 论文链接:The Google File System Introduction GFS在设计上与传统的文件系统的几个区别: 分布式系统中错误是常态,因此持续监控、错误检测、容错机制、自动恢复都是必要的。 文件普遍非常大,达到GB级别以上,
阅读全文