摘要: 大规模分布式训练并行模式 数据并行 Data Parallelism 模型在不同GPU上具有完全一致的副本,包括模型参数、模型梯度、模型优化器状态,这些都是完全相同的。唯一不同的是不同GPU上处理的数据是不同的,在每次梯度更新时,对所有数据产生梯度之和求平均,然后更新。 管道并行 Pipeline 阅读全文
posted @ 2023-09-10 14:42 星辰大海,绿色星球 阅读(61) 评论(0) 推荐(0) 编辑