摘要: 目录1. 参考2. 总结3. 分布式数据并行(DDP)4. 总结 1. 参考 https://zhuanlan.zhihu.com/p/617133971 2. 总结 以Google GPipe为代表的流水线并行范式,当模型太大,一块GPU放不下时,流水线并行,将模型的不同层放到不同的GPU上, 通 阅读全文
posted @ 2024-11-08 17:55 jack-chen666 阅读(21) 评论(0) 推荐(0) 编辑
摘要: 目录1. 参考2. 概述3. 目标4. 模型并行4.流水线并行4.1 切分micro-batch4.2 re-materialization(active checkpoint)5. 实验效果5.1 GPU数量 VS 模型大小5.2 GPU数量 VS 训练速度5.3 Gpipe下时间消耗分布 1. 阅读全文
posted @ 2024-11-08 11:33 jack-chen666 阅读(9) 评论(0) 推荐(0) 编辑
摘要: 目录1. 论文2. 代码 1. 论文 https://arxiv.org/pdf/2012.00364 2. 代码 Code is available at https://github.com/huawei-noah/Pretrained-IPT and https:gitee.com/minds 阅读全文
posted @ 2024-11-08 09:54 jack-chen666 阅读(3) 评论(0) 推荐(0) 编辑
摘要: 目录1. 路由分发架构模式2. 代理架构模式3. 基于缓存的微调架构模式4.面向目标的 Agent 架构模式5. Agent 智能体组合架构模式6. 双重安全架构设计模式 架构设计模式已成为程序员的重要技能。然而,当我们转向大模型应用领域,情况可能会有所不同。面对新兴技术,比如:生成式 AI,我们尚 阅读全文
posted @ 2024-11-08 09:40 jack-chen666 阅读(17) 评论(0) 推荐(0) 编辑