04 2025 档案

摘要:基于Torch,测Qwen 3B训练的精度对比。 排查所有的torch.ops,具体会定位到tensor idx 使用工具: https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/a 阅读全文
posted @ 2025-04-18 17:41 Justbin的猹 阅读(69) 评论(0) 推荐(0)
摘要:训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。报错信息ra 阅读全文
posted @ 2025-04-18 17:02 Justbin的猹 阅读(107) 评论(0) 推荐(0)