随笔分类 - 分布式训练
摘要:对triton中的基本语法和cuda进行对照学习
阅读全文
摘要:deepseek-v3论文中 AIInfra相关的技术学习
阅读全文
摘要:megatron 源码阅读第二篇, 看了TP和PP的对应实现
阅读全文
摘要:以pretrain_gpt.py为例, 看megatron的整体逻辑. 本章主要包括megatron初始化相关逻辑, 核心函数为initialize_megatron, setup_model_and_optimizer两个 initialize_megatron parse_args 从argpa
阅读全文
摘要:LLM并行训练-总结: 如何调整混合并行策略和nvidia训练GPT3的分析
阅读全文
摘要:LLM训练activation优化相关技术, 包括激活重计算/序列并行/zero-R/zero-offload等
阅读全文
摘要:LLM并行训练-moe并行学习笔记
阅读全文
摘要:字节megascale论文学习笔记
阅读全文
摘要:大模型训练 数据并行相关的学习笔记, 主要内容 zero, zero++
阅读全文