04 2025 档案
摘要:基于Torch,测Qwen 3B训练的精度对比。 排查所有的torch.ops,具体会定位到tensor idx 使用工具: https://github.com/hpcaitech/ColossalAI/blob/3f4818c17d236915f453236b0d4114e26ca9f5e6/a
阅读全文
摘要:训推场景Atlas800T A2服务器多机间通信有问题,报错timeout,客户用hccn_tool测试了多机卡间能够互通,但是直接执行"dist.reduce_scatter(output, input_tensor_list, group=dp_group)" 还是会timeout。报错信息ra
阅读全文
浙公网安备 33010602011771号