摘要: NotImplementedError: Using RTX 3090 or 4000 series doesn't support faster communication broadband via P2P or IB. Please set NCCL_P2P_DISABLE="1" and N 阅读全文
posted @ 2024-09-20 15:11 Chenyi_li 阅读(76) 评论(0) 推荐(0) 编辑
摘要: 解决方案是在torchrun中添加参数--master_port改变master port。且注意这个参数一定要加在要跑的文件即src/entry_point/train.py之前,否则会被忽略。 引用:https://juejin.cn/post/7260668104752775228 我的代码是 阅读全文
posted @ 2024-09-20 14:53 Chenyi_li 阅读(186) 评论(0) 推荐(0) 编辑