动手学深度学习 | 单机多卡并行 | 32

单机多卡并行

这里图片是4张980，但是因为GPU靠的太近了，一个月后就烧了一块GPU。这是沐神第一次装多GPU犯的错误。

一般都是进行数据并行。

什么使用使用模型并行呢？就batch_size=1的时候，一个GPU都不能计算的话，那么就会考虑进行模型并行，将模型分割到多个GPU来做，比如transformer的模型直接有100个G。

你可以每次分配多点数据给性能更好的GPU，一般框架也是允许这个操作的。

一般是说把梯度给加起来，梯度加起来之后就会得到完整梯度，在模型更新的时候，其实模型就只有一份，模型基本可以把保证是一致的。

数据并行确实是在每张卡中拷贝同一个模型。

模型并行实际上也是并行，只不过并行的程度会低一些。

posted @ 2021-10-03 15:00 RowryCho 阅读(295) 评论(0) 编辑收藏举报

刷新页面返回顶部