摘要: 通过模型划分进行分布式训练 https://siboehm.com/articles/22/pipeline-parallel-training 流水线并行性使得训练不适合单个GPU内存的大型模型成为可能。示例:Hugginface的BLOOM模型是一个175B参数的Transformer模型。将权 阅读全文
posted @ 2024-08-01 05:10 吴建明wujianming 阅读(21) 评论(0) 推荐(0) 编辑