Justbin的猹 - 博客园

2025年4月18日

摘要：基于Torch，测Qwen 3B训练的精度对比。排查所有的torch.ops，具体会定位到tensor idx 使用工具： https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/a 阅读全文

posted @ 2025-04-18 17:41 Justbin的猹阅读(64) 评论(0) 推荐(0)

昇腾 hccl error9 解决

摘要：训推场景Atlas800T A2服务器多机间通信有问题，报错timeout，客户用hccn_tool测试了多机卡间能够互通，但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。报错信息ra 阅读全文

posted @ 2025-04-18 17:02 Justbin的猹阅读(94) 评论(0) 推荐(0)

2025年1月19日

模型权重转换OOM解决方案

摘要： Deepseek2-236B在2T内存的服务器上转全层的权重时会出现内存不够的报错，下面介绍一些可行的改进措施。以hf2mg为例，下面是对loader_hf.py的一些修改： def _load_checkpoint(model_provider, queue, args): # Llama-2 阅读全文

posted @ 2025-01-19 00:28 Justbin的猹阅读(107) 评论(0) 推荐(0)

2024年12月20日

昇腾MindSpeed-LLM全流程实践及踩坑记录

摘要：目录昇腾MindSpeed-LLM全流程实践及踩坑记录1、 MindSpeed-LLM简介1.1 MindSpeed简介1.2MindSpeed-LLM核心功能1.3 业界主流加速库对比2、全流程实践2.1 环境搭建流程正式开始前必看前置：所以，一、直接在mcore下进行全流程操作；二、不要按照主页阅读全文

posted @ 2024-12-20 16:08 Justbin的猹阅读(3034) 评论(2) 推荐(0)

公告