2023 年 9月 10 日随笔档案 - 星辰大海,绿色星球

2023年9月10日

摘要：大规模分布式训练并行模式数据并行 Data Parallelism 模型在不同GPU上具有完全一致的副本，包括模型参数、模型梯度、模型优化器状态，这些都是完全相同的。唯一不同的是不同GPU上处理的数据是不同的，在每次梯度更新时，对所有数据产生梯度之和求平均，然后更新。管道并行 Pipeline 阅读全文

posted @ 2023-09-10 14:42 星辰大海,绿色星球阅读(66) 评论(0) 推荐(0) 编辑

星辰大海

公告