摘要: 在早期tensorflow框架进行多机多卡分布式训练采用的Parameter Server方式进行梯度的同步,但是这种方式随着GPU卡数的增加,通信效率问题凸显出来。后来百度硅谷提出在《Bring HPC techniques to Deep Learning》中提出Ring-AllReduce 技 阅读全文
posted @ 2021-07-04 22:31 星辰大海,绿色星球 阅读(2709) 评论(0) 推荐(0) 编辑