模型并行-Megatron-LM
1.原理
针对transformer模型的模型并行方法,利用矩阵乘法的特性,将每个层切开,放入不同GPU中。
2.缺点
使用多头注意力的transformer的头数、MLP隐藏层大小需要能够被GPU数整除。每计算一个层就需要进行all reduce,导致不同层之间的计算是同步的,且有较大的通信开销。
针对transformer模型的模型并行方法,利用矩阵乘法的特性,将每个层切开,放入不同GPU中。
使用多头注意力的transformer的头数、MLP隐藏层大小需要能够被GPU数整除。每计算一个层就需要进行all reduce,导致不同层之间的计算是同步的,且有较大的通信开销。