数据并行、模型并行、流水线并行

一、数据并行（DP ）

1、概念：相同的模型分布在不同的GPU上，在不同的GPU上使用不同的数据。每一张GPU上有相同的参数，在训练的时候每一个GPU训练不同的数据，相当于增大了训练时候的batch_size。

　　数据并行基于一个假设：所有节点都可以放下整个模型。这个假设在某些模型上（如GPT3）是不合理的，因此我们还需要模型并行。

2、并行方式：

同步训练：每个前向、反向结束后显示同步（把每一个GPU上的梯度进行汇总，再在GPU上进行相同的参数更新。）。

实现简单，适合同构场景；
一个节点出现故障会影响整体计算性能；
传统中心化PS（Parameter Server）：存在性能瓶颈（PS需要和很多的不同的节点进行通信，当集群的节点数增加的时候，会存在性能瓶颈）；
All-Reduce：目前最广泛采用，几乎所有框架都支持（各个GPU反向传播计算完梯度之后，通过一种像round all reduce环形结构，直接将参数更新）；
显示训练，在All-Reduce时时没法进行下一步训练的。

异步训练：只进行部分同步或不显示同步。

适合异步训练，可能导致潜在的收敛性问题；
节点和PS通信，将梯度传给Sever的时候，Sever直接用参数进行更新，从Sever拿到更新后的参数进行下一步训练。当有的节点训练快，而有的节点训练慢，训练快的节点训练好后等一会就不等了，快的节点之间做一次通信后接着下一轮计算，慢的节点什么时候算好了再和其他节点一起all reduce梯度。这样可能将梯度发送给PS的时候，从PS拿到的参数是更新了好几个版本之后的，每个节点梯度不一样，根据不同的参数算得的梯度再去做all reduce就有一些不合理，就会导致神经网络精度受损。
传统异步方法：ASGD等；
其他：把其中部分的计算节点组成一个组，每次在这个组之内进行梯度的汇总和更新。

3、实例：

3.1、谷歌提出的Zero Redundancy Optimizer（Zero）

问题：

方法：

3.2、Zero offload

二、模型并行（MP ）

1、概念：将模型切分到不同的GPU上，将模型的参数分到不同的GPU上，每一个GPU上的参数量大大减小，这样可以容纳更大的模型进行训练。

2、Megatron-LM：提出Transformer模型并行原语。

3、分类：

三、流水线并行（PP）

1、概念：基于模型并行，一个batch结束前开始下一个batch，以充分利用计算资源。将模型按层进行切分，将不同的层放入不同的GPU，训练的时候数据像流水一样在GPU上进行流动。

2、切分方式：按层切分（流水线并行）、层内切分（模型并行）。

四、混合并行（HP）

　　混合使用上述的两种或三种方法。

posted @ 2022-03-26 20:40 NLP的小Y 阅读(6443) 评论(0) 编辑收藏举报

刷新页面返回顶部