2019 年 12月 9 日随笔档案 - outthinker

2019年12月9日

摘要：使用DataParallel进行并行化时的结构如下：在上图第一行第四个步骤中，GPU-1 其实汇集了所有 GPU 的运算结果。这个对于多分类问题还好，但如果是自然语言处理模型就会出现问题，导致 GPU-1 汇集的梯度过大，直接爆掉。那么就要想办法实现多 GPU 的负载均衡，方法就是让 GPU-1 阅读全文

posted @ 2019-12-09 14:21 outthinker 阅读(4073) 评论(0) 推荐(0) 编辑

outthinker

公告