摘要:
目录1. 参考2. 介绍3. 权重的切分3.1 按行切分权重3.2 按列切分权重4. MLP层5. Self-Attention层6. Embedding层7. Cross-entropy层8. 张量模型并行 + 数据并行 1. 参考 https://zhuanlan.zhihu.com/p/622 阅读全文
摘要:
目录1. config.json2. main.py3. start.sh 1. config.json { "train_batch_size": 4, "steps_per_print": 2000, "optimizer": { "type": "Adam", "params": { "lr" 阅读全文
摘要:
目录1. 参考2. 总结3. 分布式数据并行(DDP)4. 总结 1. 参考 https://zhuanlan.zhihu.com/p/617133971 2. 总结 以Google GPipe为代表的流水线并行范式,当模型太大,一块GPU放不下时,流水线并行,将模型的不同层放到不同的GPU上, 通 阅读全文
摘要:
目录1. 参考2. 概述3. 目标4. 模型并行4.流水线并行4.1 切分micro-batch4.2 re-materialization(active checkpoint)5. 实验效果5.1 GPU数量 VS 模型大小5.2 GPU数量 VS 训练速度5.3 Gpipe下时间消耗分布 1. 阅读全文
摘要:
目录1. 论文2. 代码 1. 论文 https://arxiv.org/pdf/2012.00364 2. 代码 Code is available at https://github.com/huawei-noah/Pretrained-IPT and https:gitee.com/minds 阅读全文
摘要:
目录1. 路由分发架构模式2. 代理架构模式3. 基于缓存的微调架构模式4.面向目标的 Agent 架构模式5. Agent 智能体组合架构模式6. 双重安全架构设计模式 架构设计模式已成为程序员的重要技能。然而,当我们转向大模型应用领域,情况可能会有所不同。面对新兴技术,比如:生成式 AI,我们尚 阅读全文
摘要:
目录 大模型常见推理框架:Transformers、Llama.cpp、Llamafile、Ollama、vLLM、TGI(Text Generation Inference)、DeepSpeed。 vLLM,deepspeed是重点 Hugging Face的Transformers 强大的Pyt 阅读全文
摘要:
目录1. 训练框架概述2. 重点 Deepspeed框架介绍3. DeepSpeed框架实践4. debug5. 扩展 1. 训练框架概述 100亿 10^10 10B 参数量 是模型具备涌现能力的基本门槛 如何充分的利用显卡的能力 充分的使用显存 分布式训练框架对比 Megatron and De 阅读全文
摘要:
目录0. 计算公式1. 市面上常见的显卡2. 训练3. 推理 0. 计算公式 重点:显存大小 = 模型参数占用 + 梯度占用 + 优化器占用 + CUDA kernel占用 + 中间计算结果 每个神经元节点 不仅仅有自身的权重值 在进行反向传播的时候还有梯度的累计值 1. 市面上常见的显卡 英伟达G 阅读全文
摘要:
目录 AutoGen面向多个agent的开源框架,agent可定制 可对话 能够无缝的允许人类参与 有一个master agent 制定计划 分发给不同的agent-->智能体去中心 任意两个可直接对话 (或者分层的结构 上下两层之间才能交互) 构建复杂的多智能体对话系统,基于llm工作流,agen 阅读全文