2024 年 12月 29 日随笔档案 - 松—松

2024年12月29日

摘要： 1. 前言大模型训练离不开集合通信大模型分布式训练往往需要上千乃至上万 GPU 卡进行超大规模并行训练，是典型的计算密集型和通信密集型场景。在真实的场景中，为了高效的训练，我们一般采用多种并行策略混合的方式。常见的包括数据并行，流水并行，张量并行，序列并行，专家并行，其中张量并行和流水线并行都阅读全文

posted @ 2024-12-29 14:05 松—松阅读(299) 评论(0) 推荐(0)

纸上得来终觉浅，绝知此事要躬行。

公告