[Distributed ML] Parameter Server & Ring All-Reduce

Resource

ParameterServer入门和理解【较为详细，涉及到另一个框架：ps-lite】

一文读懂「Parameter Server」的分布式机器学习训练原理

并行计算与机器学习【很有必要过一遍大佬的视频】

并行计算与机器学习课程所有视频：

1. 并行计算基础以及MapReduce： https://youtu.be/gVcnOe6_c6Q

2. 参数服务器、去中心化： https://youtu.be/Aga2Lxp3G7M

3. Ring All-Reduce： https://youtu.be/rj-hjS5L8Bw

4. 联邦学习： https://youtu.be/STxtRucv_zo

Why?

epoch 扫一遍大数据，太耗时了，需要并行计算。

To reduce wall clock time.

Linear Predictor

f(x) = x^Tw, 所谓训练就是通过收敛，求w的过程。

计算梯度

加速计算梯度，并行。How？

基本概念

一、大纲要点

通信 Communication

系统架构 Architecture

Client-Server Architecture or Peer-to-Peer Architecture

同步或异步 Synchronization

-- 同步 --

- Apache MapReduce, 另外采用同步的 bulk synchronous parallel

- Apache Spark, 容错，快，但机器学习不高效。

MapReduce模式计算梯度。

broadcast --> reduce --> 更新参数。

但通信耗时的（communicaiton complexty, latency），且加速比的趋势会逐渐平滑。

straggler：导致“大家”都等最慢的那一个stragger。

-- 异步 --

Synchronous Parallel Gradient Descent.

Using Parameter Server

异步梯度下降的 Parameter Server，

也是 client-server architecture, message-passing communication

但用的是 asynchronous。

典型的实现：Ray

- 同步与异步模型的比较

数据并行

其实就是分割数据为小份。

二、Parallel Programming Models

MapReduce
Parameter Server
Decentralized Network

- 每个节点都有自己的一份完整数据。

- 图的连接越紧密，收敛越快。自然地，全连接最好。

与 Distributed Computing 的区别？

基本都在混用，没有明显的界限。

Parallel Computing in TensorFlow

TensorFlow Strategies

- MirroredStrategy【一机多个GPU，同步随机梯度下降】
- TPUStrategy
- MultiWorkerMirroredStrategy
- CentralStorageStrategy
- ParameterServerStrategy【适合分布式多台机器】
- OneDeviceStrategy

一、Parallel Training CNN on MNIST by MirroredStrategy

一机4个GPU，同步随机梯度下降。

from tensorflow.pyton.client import device_lib

device_lib.list_local_device()
# 一块cpu，四块gpu


from tensorflow import distribute

strategy = distribute.MirroredStrategy()
m = strategy.num_replicas_in_sync
print('Number of devices: {}'.format(m))


import tensorflow as tf

def scale(image, label):
　　image = tf.cast(image, tf.float32)
　　image /= 255
　　return image, label

import tensorflow_datasets as tfds

datasets, info = tfds.load(name='mnist', with_info=True, as_supervised=True)
mnist_train = datasets['train'].map(scale).cache()
mnist_test  = datasets['test'].map(scale)

sgd用比较小的batch 就好了。

这里在此遇到 strategy.scope()，提供了number of gpu的信息。

然后通过summary可看网络结构。

编译模型：

with strategy.scope():
　　model.compile(loss='sparse_categorical_crossentropy', 
　　　　           optimizer=keras.optimizers.RMSprop(learning_rate=1E-3), 
                  metrics=['accuracy'])

二、Ring All-Reduce 原理

Horovod 是基于Ring-AllReduce方法的深度分布式学习插件，以支持多种流行架构包括TensorFlow、Keras、PyTorch等。这样平台开发者只需要为Horovod进行配置，而不是对每个架构有不同的配置方法。

类似 MapReduce，但子节点不知道相加后的结果（15），但 ring all-reduce会让大家都知道。

E.g, all-reduce via reduce+broadcast（tf的内置）--> 通过转两圈，每个gpu都得到"梯度sum"。

E.g, all-reduce via all-to-all communication. （不是很流行）

优化后，跟gpu的块数无关。

Federated Learning 联邦学习

一、基本概念

属于 distributed learning。核心：如何减少通信次数，可以接受加大client端的计算量。

二、Federated Average Learning

FedAvg的有效性已被证明。

On the Convergence of FedAvg on Non-IID Data

分布式随机梯度的“安全性”

Federated Average Learning 的"安全性”。

梯度的本质就是原始数据做了一个变换而已，几乎携带了所有原始信息。

即使是 FedAvg也会被攻击有效。

三、总结

三个研究方向。

关于毒药样本

Data Evasion （test time） v.s. Data Poisoning（training time）

Data Poisoning Attack的讲解

Parameter Server 专题

2014年分布式可扩展的Parameter Server被沐神 @李沐提出，几乎完美的解决了机器模型的分布式训练问题，时至今日，parameter server不仅被直接应用在各大公司的机器学习平台上，而且也被集成在TensorFlow，MXNet等主流的深度框架中，作为机器学习分布式训练最重要的解决方案。

一、沐神出世

一致性与并行效率之间的取舍

在上篇文章介绍spark的并行梯度下降原理时，曾经提到spark并行梯度下降效率较低的原因就是每个节点都需要等待其他所有节点的梯度都计算完后，master节点汇总梯度，计算好新的模型参数后，才能开始下一轮的梯度计算，我们称这种方式为“同步阻断式”的并行梯度下降过程。

“同步阻断式“的并行梯度下降虽然是严格意义上的一致性最强的梯度下降方法，因为其计算结果和串行计算的过程一致，但效率过低，各节点的waiting时间过长，有没有办法提高梯度下降的并行度呢？

Paprameter Server采取的方法是用“异步非阻断式”的梯度下降替代原来的同步式方法。

异步梯度更新的方式虽然大幅加快了训练速度，但带来的是模型一致性的丧失，也就是说并行训练的结果与原来的单点串行训练的结果是不一致的，这样的不一致会对模型收敛的速度造成一定影响。所以最终选取同步更新还是异步更新取决于不同模型对于一致性的敏感程度。这类似于一个模型超参数选取的问题，需要针对具体问题进行具体的验证。

异步更新带来的梯度不一致性的影响没有想象中那么大