2020 年 3月 24 日随笔档案 - shuo-ouyang

2020年3月24日

NeurIPS 2017 | QSGD: Communication-Efficient SGD via Gradient Quantization and Encoding

摘要：由于良好的可扩展性，随机梯度下降（SGD）的并行实现是最近研究的热点。实现并行化SGD的关键障碍就是节点间梯度更新时的高带宽开销。因此，研究者们提出了一些启发式的梯度压缩方法，使得节点间只传输压缩后的梯度。尽管这些启发式方法在实践中很有效，但它们有时并不会收敛。本文提出了量化SGD（Quantiz 阅读全文

posted @ 2020-03-24 19:08 shuo-ouyang 阅读(2643) 评论(1) 推荐(0) 编辑

EMNLP 2017 | Sparse Communication for Distributed Gradient Descent

摘要：通过将分布式随机梯度下降（SGD）中的稠密更新替换成稀疏更新可以显著提高训练速度。当大多数更新接近于0时，梯度更新会出现正偏差，因此我们将99％最小更新（绝对值）映射为零，然后使用该稀疏矩阵替换原来的稠密矩阵。该方法可以于梯度量化相结合来进一步压缩梯度。我们探索了不同的的参数配置并将它们应用到神经机阅读全文

posted @ 2020-03-24 19:06 shuo-ouyang 阅读(957) 评论(0) 推荐(0) 编辑

《深度探索C++对象模型》第二章 | 构造函数语意学

摘要：默认构造函数的构建操作默认构造函数在需要的时候被编译器合成出来。这里“在需要的时候”指的是编译器需要的时候。带有默认构造函数的成员对象如果一个类没有任何构造函数，但是它包含一个成员对象，该成员对象拥有默认构造函数，那么这个类的隐式默认构造函数就是非平凡的，编译器需要为该类合成默认构造函数。为了阅读全文

posted @ 2020-03-24 18:10 shuo-ouyang 阅读(293) 评论(0) 推荐(0) 编辑

NeurIPS 2017 | TernGrad: Ternary Gradients to Reduce Communication in Distributed Deep Learning

摘要：在深度神经网络的分布式训练中，梯度和参数同步时的网络开销是一个瓶颈。本文提出了一个名为TernGrad梯度量化的方法，通过将梯度三值化为${-1, 0, 1}$来减少通信量。此外，本文还使用逐层三值化和梯度裁剪加速算法的收敛。在传统的数据并行SGD的每次迭代$t$中，训练数据会被分成$N$份以供$ 阅读全文

posted @ 2020-03-24 15:42 shuo-ouyang 阅读(754) 评论(0) 推荐(0) 编辑

Loading

Shuo Ouyang's Blog

公告