模型并行-Gpipe算法
1.原理
与CPU的流水线的方法相同,Gpipe将模型分成多个块,每个块含有原模型的数个层。将每个块放在不同的GPU上,实现模型的流水线执行。
2.缺点
由于使用了流水线,在流水线中,执行时间最长的块将成为整个系统的瓶颈。卷积网络训练过程中,设计到矩阵的维度变换,无法实现良好的切分平衡不同GPU之间的负载,而在transformer中表现较好。只能支持串行结构的神经网络。只能同步进行更新操作。
与CPU的流水线的方法相同,Gpipe将模型分成多个块,每个块含有原模型的数个层。将每个块放在不同的GPU上,实现模型的流水线执行。
由于使用了流水线,在流水线中,执行时间最长的块将成为整个系统的瓶颈。卷积网络训练过程中,设计到矩阵的维度变换,无法实现良好的切分平衡不同GPU之间的负载,而在transformer中表现较好。只能支持串行结构的神经网络。只能同步进行更新操作。