摘要: 基于Torch,测Qwen 3B训练的精度对比。 排查所有的torch.ops,具体会定位到tensor idx 使用工具: https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/a 阅读全文
posted @ 2025-04-18 17:41 Justbin的猹 阅读(20) 评论(0) 推荐(0)
摘要: 训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。报错信息ra 阅读全文
posted @ 2025-04-18 17:02 Justbin的猹 阅读(19) 评论(0) 推荐(0)
摘要: Deepseek2-236B在2T内存的服务器上转全层的权重时会出现内存不够的报错,下面介绍一些可行的改进措施。 以hf2mg为例,下面是对loader_hf.py的一些修改: def _load_checkpoint(model_provider, queue, args): # Llama-2 阅读全文
posted @ 2025-01-19 00:28 Justbin的猹 阅读(45) 评论(0) 推荐(0)
摘要: 目录昇腾MindSpeed-LLM全流程实践及踩坑记录1、 MindSpeed-LLM简介1.1 MindSpeed简介1.2MindSpeed-LLM核心功能1.3 业界主流加速库对比2、全流程实践2.1 环境搭建流程正式开始前必看前置:所以,一、直接在mcore下进行全流程操作;二、不要按照主页 阅读全文
posted @ 2024-12-20 16:08 Justbin的猹 阅读(1655) 评论(2) 推荐(0)