摘要: 本文,我们将了解如何基于 PyTorch 最新的 完全分片数据并行 (Fully Sharded Data Parallel,FSDP) 功能用 Accelerate 库来训练大模型。 动机 🤗 随着机器学习 (ML) 模型的规模、大小和参数量的不断增加,ML 从业者发现在自己的硬件上训练甚至加载 阅读全文
posted @ 2023-12-04 20:54 HuggingFace 阅读(1707) 评论(0) 推荐(1) 编辑