推荐:分布式深度学习
资料
https://zhuanlan.zhihu.com/p/50116885
https://zhuanlan.zhihu.com/p/30976469
https://levinehuang.github.io/deep-learning/ai/2018/11/20/Large_Distributed_Model_Training_01/
https://www.codenong.com/cs106079609/
http://images.china-pub.com/ebook8075001-8080000/8077044/ch01.pdf
笔记
【Parameter Server】
-
参数量大的情况下,应当选择模型并行,也就是将参数矩阵拆分成小部分,e.g. :
-
Forward 的时候把每个 node 的 XAiBi 传给其他 node。backward 不需要传输数据。
-
然而需要拆分
-
选择数据并行
-
在两个 node 上防止完全相同的 A, B 。拆分 X = [x1, x2]
-
Forward 不需要传输,backward 需要传输由 Xi 计算出来的 A, B 的梯度传给其他 node。