摘要: 转自:https://www.zhihu.com/people/xutan 最近在进行多GPU分布式训练时,也遇到了large batch与learning rate的理解调试问题,相比baseline的batch size,多机同步并行(之前有答案是介绍同步并行的通信框架NCCL(谭旭:如何理解N 阅读全文
posted @ 2019-06-04 22:26 Le1B_o 阅读(2768) 评论(0) 推荐(0) 编辑