摘要:
由于良好的可扩展性,随机梯度下降(SGD)的并行实现是最近研究的热点。实现并行化SGD的关键障碍就是节点间梯度更新时的高带宽开销。因此,研究者们提出了一些启发式的梯度压缩方法,使得节点间只传输压缩后的梯度。尽管这些启发式方法在实践中很有效,但它们有时并不会收敛。 本文提出了量化SGD(Quantiz 阅读全文
摘要:
通过将分布式随机梯度下降(SGD)中的稠密更新替换成稀疏更新可以显著提高训练速度。当大多数更新接近于0时,梯度更新会出现正偏差,因此我们将99%最小更新(绝对值)映射为零,然后使用该稀疏矩阵替换原来的稠密矩阵。该方法可以于梯度量化相结合来进一步压缩梯度。我们探索了不同的的参数配置并将它们应用到神经机 阅读全文
摘要:
默认构造函数的构建操作 默认构造函数在需要的时候被编译器合成出来。这里“在需要的时候”指的是编译器需要的时候。 带有默认构造函数的成员对象 如果一个类没有任何构造函数,但是它包含一个成员对象,该成员对象拥有默认构造函数,那么这个类的隐式默认构造函数就是非平凡的,编译器需要为该类合成默认构造函数。为了 阅读全文
摘要:
在深度神经网络的分布式训练中,梯度和参数同步时的网络开销是一个瓶颈。本文提出了一个名为TernGrad梯度量化的方法,通过将梯度三值化为${-1, 0, 1}$来减少通信量。此外,本文还使用逐层三值化和梯度裁剪加速算法的收敛。 在传统的数据并行SGD的每次迭代$t$中,训练数据会被分成$N$份以供$ 阅读全文