摘要: 官方原理图 前向传播过程:将数据按照batch维度分发到各个GPU上(平均分配),而后将模型拷贝到GPU,各GPU并行前向传播,将各个输出(o1、02、03、04)汇总到总的GPU。 后向传播过程:在总GPU上并行计算得到损失,并得到初始梯度;将各梯度分发到各GPU;并行计算梯度;汇总梯度,更新网络 阅读全文
posted @ 2020-01-10 22:47 suwenyuan 阅读(676) 评论(0) 推荐(0) 编辑