摘要: 分布式混合并行训练关键技术解读 为个人参与深度学习框架飞桨PaddlePaddle 开发时,梳理的个人笔记。 一、并行方式 1.数据并行(Batch维度) 数据并行分为了两种模式:Data Parallel(DP) 和 Distributed Data Parallel(DDP) 。 1.1 Data Parallel DP是一种 阅读全文
posted @ 2024-07-08 20:17 Aurelius84 阅读(57) 评论(0) 推荐(0) 编辑
摘要: 大模型如何提升训练效率 一、问题背景 随着AIGC领域的兴起,各大厂商都在训练和推出自研的大模型结构,并结合业务进行落地和推广。在大模型分布式训练场景中,主流的主要是基于英伟达GPU进行训练(如A100),如何有效地压榨GPU的计算能力,提升训练效率,降低训练成本,是一个非常重要的实践优化问题。 1.1 直接目标 最直接地 阅读全文
posted @ 2024-07-08 19:58 Aurelius84 阅读(281) 评论(0) 推荐(0) 编辑