摘要:
基于Torch,测Qwen 3B训练的精度对比。 排查所有的torch.ops,具体会定位到tensor idx 使用工具: https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/a 阅读全文
posted @ 2025-04-18 17:41
Justbin的猹
阅读(20)
评论(0)
推荐(0)
摘要:
训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。报错信息ra 阅读全文
posted @ 2025-04-18 17:02
Justbin的猹
阅读(19)
评论(0)
推荐(0)