Loading

摘要: 为了降低大规模分布式训练时的通信开销,作者提出了一种名为深度梯度压缩(Deep Gradient Compression, DGC)的方法。DGC通过稀疏化技术,在每次迭代时只选择发送一部分比较“重要”的梯度元素,以达到降低整个训练过程通信量的目的。为了保证使用DGC后模型的精度,作者还使用了几种花 阅读全文
posted @ 2020-05-24 18:33 shuo-ouyang 阅读(2010) 评论(0) 推荐(1) 编辑