【PyTorch深度学习60分钟快速入门】Part5：数据并行化

在本节中，我们将学习如何利用DataParallel使用多个GPU。
在PyTorch中使用多个GPU非常容易，你可以使用下面代码将模型放在GPU上：

model.gpu()

然后，你可以将所有张量拷贝到GPU上：

mytensor = my_tensor.gpu()

请注意，仅仅调用my_tensor.gpu()并不会将张量拷贝到GPU上，你需要将它指派给一个新的张量，然后在GPU上使用这个新张量。

在多个GPU上执行你的前向和后向传播是一件很自然的事情。然而，PyTorch默认情况下只会使用一个GPU。不过，通过利用DataParallel使你的模型并行地运行，这样你就能很容易地将操作运行在多个GPU上：

model = nn.DataParallel(model)

这正是本节的核心。下面，我们将更详细地分析该技术。

0x01 导入和参数

下面，导入PyTorch模块并定义相关参数：

import torch
import torch.nn as nn
from torch.autograd import Variable
from torch.utils.data import Dataset, DataLoader

# Parameters and DataLoaders
input_size = 5
output_size = 2

batch_size = 30
data_size = 100

0x02 虚拟数据集

创建一个虚拟的（随机的）数据集。你只需要实现__getitem__方法：

class RandomDataset(Dataset):

    def __init__(self, size, length):
        self.len = length
        self.data = torch.randn(length, size)

    def __getitem__(self, index):
        return self.data[index]

    def __len__(self):
        return self.len

rand_loader = DataLoader(dataset=RandomDataset(input_size, 100),batch_size=batch_size, shuffle=True)

0x03 简单模型

在该demo中，我们的模型只会接受一个输入，并进行一个线性操作，然后给出输出结果。然而，你可以在任何模型（CNN、RNN、Capsule Net等等）上使用DataParallel。

在模型内部我们添加了一个打印语句，以监控输入和输出的张量大小。请注意在rank 0批次时打印的内容：

class Model(nn.Module):
    # Our model

    def __init__(self, input_size, output_size):
        super(Model, self).__init__()
        self.fc = nn.Linear(input_size, output_size)

    def forward(self, input):
        output = self.fc(input)
        print("  In Model: input size", input.size(),
              "output size", output.size())

        return output

0x04 创建模型和数据并行化

这是本教程的核心部分。首先，我们需要创建一个模型实例，并检查我们是否拥有多个GPU。如果拥有多个GPU，那么可以使用nn.DataParallel来封装我们的模型。然后，利用model.gpu()将模型放到GPU上：

model = Model(input_size, output_size)
if torch.cuda.device_count() > 1:
  print("Let's use", torch.cuda.device_count(), "GPUs!")
  # dim = 0 [30, xxx] -> [10, ...], [10, ...], [10, ...] on 3 GPUs
  model = nn.DataParallel(model)

if torch.cuda.is_available():
   model.cuda()

0x05 运行模型

现在，我们可以查看输入与输出张量的大小：

for data in rand_loader:
    if torch.cuda.is_available():
        input_var = Variable(data.cuda())
    else:
        input_var = Variable(data)

    output = model(input_var)
    print("Outside: input size", input_var.size(),
          "output_size", output.size())

输出结果：

In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  In Model: input size torch.Size([30, 5]) output size torch.Size([30, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
  In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

0x06 结果

当我们将输入和输出都以30个作为批量大小时，正常情况下该模型会得到30并输出30。但如果你有多个GPU，那么你将会得到下面的结果：

2个GPU

如果你有2个GPU，你将看到：

# on 2 GPUs
Let's use 2 GPUs!
    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
    In Model: input size torch.Size([15, 5]) output size torch.Size([15, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
    In Model: input size torch.Size([5, 5]) output size torch.Size([5, 2])
Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

3个GPU

如果你有3个GPU，你将看到：

Let's use 3 GPUs!
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
    In Model: input size torch.Size([10, 5]) output size torch.Size([10, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

8个GPU

如果你有8个GPU，你将看到：

Let's use 8 GPUs!
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([4, 5]) output size torch.Size([4, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
Outside: input size torch.Size([30, 5]) output_size torch.Size([30, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
    In Model: input size torch.Size([2, 5]) output size torch.Size([2, 2])
Outside: input size torch.Size([10, 5]) output_size torch.Size([10, 2])

0x07 总结

DataParallel会自动分割数据，并将作业顺序发送给多个GPU上的多个模型。在每个模型完成它们的作业之后，DataParallel会收集并合并结果，然后再返回给你。

关于并行计算的更多信息，可以阅读这里。

posted @ 2018-01-31 10:34 HackHan 阅读(618) 评论(0) 收藏举报

刷新页面返回顶部

HackHan技术博客

成长的过程是孤独与痛苦的！

【PyTorch深度学习60分钟快速入门】Part5：数据并行化

0x01 导入和参数

0x02 虚拟数据集

0x03 简单模型

0x04 创建模型和数据并行化

0x05 运行模型

0x06 结果

2个GPU

3个GPU

8个GPU

0x07 总结

公告

HackHan技术博客

成长的过程是孤独与痛苦的！

【PyTorch深度学习60分钟快速入门 】Part5：数据并行化

0x01 导入和参数

0x02 虚拟数据集

0x03 简单模型

0x04 创建模型和数据并行化

0x05 运行模型

0x06 结果

2个GPU

3个GPU

8个GPU

0x07 总结

公告

【PyTorch深度学习60分钟快速入门】Part5：数据并行化