摘要: 1. 前言 大模型训练离不开集合通信 大模型分布式训练往往需要上千乃至上万 GPU 卡进行超大规模并行训练,是典型的计算密集型和通信密集型场景。 在真实的场景中,为了高效的训练,我们一般采用多种并行策略混合的方式。常见的包括数据并行,流水并行,张量并行,序列并行,专家并行,其中张量并行和流水线并行都 阅读全文
posted @ 2024-12-29 14:05 松—松 阅读(299) 评论(0) 推荐(0)