Loading

摘要: 由于良好的可扩展性,随机梯度下降(SGD)的并行实现是最近研究的热点。实现并行化SGD的关键障碍就是节点间梯度更新时的高带宽开销。因此,研究者们提出了一些启发式的梯度压缩方法,使得节点间只传输压缩后的梯度。尽管这些启发式方法在实践中很有效,但它们有时并不会收敛。 本文提出了量化SGD(Quantiz 阅读全文
posted @ 2020-03-24 19:08 shuo-ouyang 阅读(2643) 评论(1) 推荐(0) 编辑
摘要: 通过将分布式随机梯度下降(SGD)中的稠密更新替换成稀疏更新可以显著提高训练速度。当大多数更新接近于0时,梯度更新会出现正偏差,因此我们将99%最小更新(绝对值)映射为零,然后使用该稀疏矩阵替换原来的稠密矩阵。该方法可以于梯度量化相结合来进一步压缩梯度。我们探索了不同的的参数配置并将它们应用到神经机 阅读全文
posted @ 2020-03-24 19:06 shuo-ouyang 阅读(957) 评论(0) 推荐(0) 编辑
摘要: 默认构造函数的构建操作 默认构造函数在需要的时候被编译器合成出来。这里“在需要的时候”指的是编译器需要的时候。 带有默认构造函数的成员对象 如果一个类没有任何构造函数,但是它包含一个成员对象,该成员对象拥有默认构造函数,那么这个类的隐式默认构造函数就是非平凡的,编译器需要为该类合成默认构造函数。为了 阅读全文
posted @ 2020-03-24 18:10 shuo-ouyang 阅读(293) 评论(0) 推荐(0) 编辑
摘要: 在深度神经网络的分布式训练中,梯度和参数同步时的网络开销是一个瓶颈。本文提出了一个名为TernGrad梯度量化的方法,通过将梯度三值化为${-1, 0, 1}$来减少通信量。此外,本文还使用逐层三值化和梯度裁剪加速算法的收敛。 在传统的数据并行SGD的每次迭代$t$中,训练数据会被分成$N$份以供$ 阅读全文
posted @ 2020-03-24 15:42 shuo-ouyang 阅读(754) 评论(0) 推荐(0) 编辑