摘要: 使用DataParallel进行并行化时的结构如下: 在上图第一行第四个步骤中,GPU-1 其实汇集了所有 GPU 的运算结果。这个对于多分类问题还好,但如果是自然语言处理模型就会出现问题,导致 GPU-1 汇集的梯度过大,直接爆掉。 那么就要想办法实现多 GPU 的负载均衡,方法就是让 GPU-1 阅读全文
posted @ 2019-12-09 14:21 outthinker 阅读(4073) 评论(0) 推荐(0) 编辑