
1. MNIST 数据集分类

构建简单的 CNN 对 MINIST 数据集进行分类。同时,在实验中学习池化与卷积操作的基本作用。

1.1. 引入库

import torch
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim
from torchvision import datasets, transforms
import matplotlib.pyplot as plt
import numpy

# 一个函数,用来计算模型中有多少参数
def get_n_params(model):
    np = 0
    for p in list(model.parameters()):
        np += p.nelement()
    return np

# 使用GPU训练,可以在菜单 "代码执行工具" -> "更改运行时类型" 里进行设置
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

1.2. 加载数据(MNIST)

PyTorch里包含了 MNIST, CIFAR10 等常用数据集,调用 torchvision.datasets 即可把这些数据由远程下载到本地,下面给出MNIST的使用方法:

torchvision.datasets.MNIST(root, train=True, transform=None, target_transform=None, download=False)

  • root 为数据集下载到本地后的根目录,包括 training.pt 和 test.pt 文件。
  • train,如果设置为True,从training.pt创建数据集,否则从test.pt创建。
  • download,如果设置为True, 从互联网下载数据并放到root文件夹下。
  • transform, 一种函数或变换,输入PIL图片,返回变换之后的数据。
  • target_transform 一种函数或变换,输入目标,进行变换。

另外值得注意的是,DataLoader是一个比较重要的类,提供的常用操作有:batch_size(每个batch的大小), shuffle(是否进行随机打乱顺序的操作), num_workers(加载数据的时候使用几个子进程)。

input_size  = 28*28   # MNIST上的图像尺寸是 28x28
output_size = 10      # 类别为 0 到 9 的数字,因此为十类

train_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=True, download=True,
             transforms.Normalize((0.1307,), (0.3081,))])),
    batch_size=64, shuffle=True)

test_loader = torch.utils.data.DataLoader(
    datasets.MNIST('./data', train=False, transform=transforms.Compose([
             transforms.Normalize((0.1307,), (0.3081,))])),
    batch_size=1000, shuffle=True)


编写代码来显示数据集中的部分图像,下面输出一个 8*5 的图像矩阵:

plt.figure(figsize=(8, 5))
for i in range(40):
    plt.subplot(8, 5, i + 1)
    image, _ = train_loader.dataset.__getitem__(i)

1.3. 创建网络

定义网络时,需要继承 nn.Module,并实现它的 forward 方法,把网络中具有可学习参数的层放在构造函数__init__中。

只要在 nn.Module 的子类中定义了 forward 函数,backward 函数就会自动被实现(利用 autograd)。

class FC2Layer(nn.Module):
    # 把网络中具有可学习参数的层放在构造函数__init__中
    def __init__(self, input_size, n_hidden, output_size):
        # nn.Module子类的函数必须在构造函数中执行父类的构造函数
        # 下式等价于nn.Module.__init__(self)        
        super(FC2Layer, self).__init__()
        self.input_size = input_size
        # 这里直接用 Sequential 就定义了网络,注意要和下面 CNN 的代码区分开
        self.network = nn.Sequential(
            nn.Linear(input_size, n_hidden), 
            nn.Linear(n_hidden, n_hidden), 
            nn.Linear(n_hidden, output_size), 
    def forward(self, x):
        # view一般出现在model类的forward函数中,用于改变输入或输出的形状
        # x.view(-1, self.input_size) 的意思是多维的数据展成二维
        # 代码指定二维数据的列数为 input_size=784,行数 -1 表示我们不想算,电脑会自己计算对应的数字
        # 在 DataLoader 部分,我们可以看到 batch_size 是64,所以得到 x 的行数是64
        # 大家可以加一行代码:print(x.cpu().numpy().shape)
        # 训练过程中,就会看到 (64, 784) 的输出,和我们的预期是一致的

        # forward 函数的作用是,指定网络的运行过程,这个全连接网络可能看不啥意义,
        # 下面的CNN网络可以看出 forward 的作用。
        x = x.view(-1, self.input_size)
        # print(x.cpu().numpy().shape)
        return self.network(x)

class CNN(nn.Module):
    def __init__(self, input_size, n_feature, output_size):
        # 执行父类的构造函数,所有的网络都要这么写
        super(CNN, self).__init__()
        # 下面是网络里典型结构的一些定义,一般就是卷积和全连接
        # 池化、ReLU一类的不用在这里定义
        self.n_feature = n_feature
        # 卷积
        self.conv1 = nn.Conv2d(in_channels=1, out_channels=n_feature, kernel_size=5)
        self.conv2 = nn.Conv2d(n_feature, n_feature, kernel_size=5)
        # 全连接
        self.fc1 = nn.Linear(n_feature*4*4, 50)
        self.fc2 = nn.Linear(50, 10)    
    # 下面的 forward 函数,定义了网络的结构,按照一定顺序,把上面构建的一些结构组织起来
    # 意思就是,conv1, conv2 等等的,可以多次重用
    def forward(self, x, verbose=False):
        x = self.conv1(x)
        x = F.relu(x)
        x = F.max_pool2d(x, kernel_size=2)
        x = self.conv2(x)
        x = F.relu(x)
        x = F.max_pool2d(x, kernel_size=2)
        x = x.view(-1, self.n_feature*4*4)
        x = self.fc1(x)
        x = F.relu(x)
        x = self.fc2(x)
        x = F.log_softmax(x, dim=1)
        return x


# 训练函数
def train(model):
    # 主里从train_loader里,64个样本一个batch为单位提取样本进行训练
    for batch_idx, (data, target) in enumerate(train_loader):
        # 把数据送到GPU中
        data, target = data.to(device), target.to(device)

        output = model(data)
        loss = F.nll_loss(output, target)
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

# 测试函数
def test(model):
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        # 把数据送到GPU中
        data, target = data.to(device), target.to(device)
        # 把数据送入模型,得到预测结果
        output = model(data)
        # 计算本次batch的损失,并加到 test_loss 中
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        # get the index of the max log-probability,最后一层输出10个数,
        # 值最大的那个即对应着分类结果,然后把分类结果保存在 pred 里
        pred = output.data.max(1, keepdim=True)[1]
        # 将 pred 与 target 相比,得到正确预测结果的数量,并加到 correct 中
        # 这里需要注意一下 view_as ,意思是把 target 变成维度和 pred 一样的意思                                                
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),

1.4. 在小型全连接网络上训练(Fully-connected network)

CNN和全连接网络,拥有相同数量的模型参数,在下面的代码输出结果中通过观察 parameters 可以看出。

n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))



1.5. 在卷积神经网络上训练

# Training settings 
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))



通过对比,在 CNN 上训练得到的准确率明显比在全连接网络上训练得到的准确率高,我们可以得出结论:含有相同参数的 CNN 效果要明显优于简单的全连接网络。CNN 有以上的效果是由于 CNN 通过卷积和池化来更好地挖掘图像中的信息。

1.6. 打乱像素顺序再次在两个网络上训练和测试

考虑到CNN在卷积与池化上的优良特性,如果我们把图像中的像素打乱顺序,这样 卷积 和 池化 就难以发挥作用了,为了验证这个想法,我们把图像中的像素打乱顺序再试试。


# 这里解释一下 torch.randperm 函数,给定参数n,返回一个从0到n-1的随机整数排列
perm = torch.randperm(784)
plt.figure(figsize=(8, 5))
for i in range(20):
    image, _ = train_loader.dataset.__getitem__(i)
    # permute pixels
    image_perm = image.view(-1, 28*28).clone()
    image_perm = image_perm[:, perm]
    image_perm = image_perm.view(-1, 1, 28, 28)
    plt.subplot(8, 5, i + 1)
    plt.imshow(image.squeeze().numpy(), 'gray')
    plt.subplot(8, 5, i + 21)
    plt.imshow(image_perm.squeeze().numpy(), 'gray')


前20张为像素正常的图片,后20张为打乱像素的图片。重新定义训练与测试函数,我们写了两个函数 train_perm 和 test_perm,分别对应着加入像素打乱顺序的训练函数与测试函数

与之前的训练与测试函数基本上完全相同,只是对 data 加入了打乱顺序操作。

# 对每个 batch 里的数据,打乱像素顺序的函数
def perm_pixel(data, perm):
    # 转化为二维矩阵
    data_new = data.view(-1, 28*28)
    # 打乱像素顺序
    data_new = data_new[:, perm]
    # 恢复为原来4维的 tensor
    data_new = data_new.view(-1, 1, 28, 28)
    return data_new

# 训练函数
def train_perm(model, perm):
    for batch_idx, (data, target) in enumerate(train_loader):
        data, target = data.to(device), target.to(device)
        # 像素打乱顺序
        data = perm_pixel(data, perm)

        output = model(data)
        loss = F.nll_loss(output, target)
        if batch_idx % 100 == 0:
            print('Train: [{}/{} ({:.0f}%)]\tLoss: {:.6f}'.format(
                batch_idx * len(data), len(train_loader.dataset),
                100. * batch_idx / len(train_loader), loss.item()))

# 测试函数
def test_perm(model, perm):
    test_loss = 0
    correct = 0
    for data, target in test_loader:
        data, target = data.to(device), target.to(device)

        # 像素打乱顺序
        data = perm_pixel(data, perm)

        output = model(data)
        test_loss += F.nll_loss(output, target, reduction='sum').item()
        pred = output.data.max(1, keepdim=True)[1]
        # 把 target 变成维度和 pred 一样的意思                                            
        correct += pred.eq(target.data.view_as(pred)).cpu().sum().item()

    test_loss /= len(test_loader.dataset)
    accuracy = 100. * correct / len(test_loader.dataset)
    print('\nTest set: Average loss: {:.4f}, Accuracy: {}/{} ({:.0f}%)\n'.format(
        test_loss, correct, len(test_loader.dataset),


perm = torch.randperm(784)
n_hidden = 8 # number of hidden units

model_fnn = FC2Layer(input_size, n_hidden, output_size)
optimizer = optim.SGD(model_fnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_fnn)))

train_perm(model_fnn, perm)
test_perm(model_fnn, perm)


在 CNN 上训练与测试:

perm = torch.randperm(784)
n_features = 6 # number of feature maps

model_cnn = CNN(input_size, n_features, output_size)
optimizer = optim.SGD(model_cnn.parameters(), lr=0.01, momentum=0.5)
print('Number of parameters: {}'.format(get_n_params(model_cnn)))

train_perm(model_cnn, perm)
test_perm(model_cnn, perm)


从打乱像素顺序的实验结果来看,全连接网络的性能基本上没有发生变化,但是 CNN 的性能明显下降。

这是因为对于卷积神经网络,会利用像素的局部关系,CNN 使用卷积核来压缩图像的大小,但是打乱顺序以后,这些像素间的关系将无法得到利用。

2. CIFAR10 数据集分类

对于视觉数据,PyTorch 创建了一个叫做 totchvision 的包,该包含有支持加载类似Imagenet,CIFAR10,MNIST 等公共数据集的数据加载模块 torchvision.datasets 和支持加载图像数据数据转换模块 torch.utils.data.DataLoader。


  • airplane
  • automobile
  • bird
  • cat
  • deer
  • dog
  • frog
  • horse
  • ship
  • truck

CIFAR-10 中的图像尺寸为3x32x32,也就是RGB的3层颜色通道,每层通道内的尺寸为32*32。

首先,加载并归一化 CIFAR10 使用 torchvision 。torchvision 数据集的输出是范围在[0,1]之间的 PILImage,我们将他们转换成归一化范围为[-1,1]之间的张量 Tensors。

2.1. 引入库并下载资源

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 使用GPU训练,可以在菜单 "代码执行工具" -> "更改运行时类型" 里进行设置
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform = transforms.Compose(
     transforms.Normalize((0.5, 0.5, 0.5), (0.5, 0.5, 0.5))])

# 注意下面代码中:训练的 shuffle 是 True,测试的 shuffle 是 false
# 训练时可以打乱顺序增加多样性,测试是没有必要
trainset = torchvision.datasets.CIFAR10(root='./data', train=True,
                                        download=True, transform=transform)
trainloader = torch.utils.data.DataLoader(trainset, batch_size=64,
                                          shuffle=True, num_workers=2)

testset = torchvision.datasets.CIFAR10(root='./data', train=False,
                                       download=True, transform=transform)
testloader = torch.utils.data.DataLoader(testset, batch_size=8,
                                         shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')


下面展示 CIFAR10 里面的一些图片:

def imshow(img):
    img = img / 2 + 0.5     # 转换到 [0,1] 之间
    npimg = img.numpy()
    plt.imshow(np.transpose(npimg, (1, 2, 0)))

# 得到一组图像
# 此处可能由于 pytorch 版本问题报错
images, labels = next(iter(trainloader))
# 展示图像
# 展示第一行图像的标签
for j in range(8):


car cat bird cat frog car ship ship

2.2. 定义网络、损失函数和优化器

class Net(nn.Module):
    def __init__(self):
        super(Net, self).__init__()
        self.conv1 = nn.Conv2d(3, 6, 5)
        self.pool = nn.MaxPool2d(2, 2)
        self.conv2 = nn.Conv2d(6, 16, 5)
        self.fc1 = nn.Linear(16 * 5 * 5, 120)
        self.fc2 = nn.Linear(120, 84)
        self.fc3 = nn.Linear(84, 10)

    def forward(self, x):
        x = self.pool(F.relu(self.conv1(x)))
        x = self.pool(F.relu(self.conv2(x)))
        x = x.view(-1, 16 * 5 * 5)
        x = F.relu(self.fc1(x))
        x = F.relu(self.fc2(x))
        x = self.fc3(x)
        return x

# 网络放到GPU上
net = Net().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

2.3. 训练网络

for epoch in range(10):  # 重复多轮训练
    for i, (inputs, labels) in enumerate(trainloader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        # 优化器梯度归零
        # 正向传播 + 反向传播 + 优化 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        # 输出统计信息
        if i % 100 == 0:   
            print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')


Epoch: 1 Minibatch:     1 loss: 2.316
Epoch: 1 Minibatch:   101 loss: 1.693
Epoch: 1 Minibatch:   201 loss: 1.794
Epoch: 1 Minibatch:   301 loss: 1.526
Epoch: 1 Minibatch:   401 loss: 1.520
Epoch: 1 Minibatch:   501 loss: 1.520
Epoch: 1 Minibatch:   601 loss: 1.650
Epoch: 1 Minibatch:   701 loss: 1.444
Epoch: 2 Minibatch:     1 loss: 1.498
Epoch: 2 Minibatch:   101 loss: 1.396
Epoch: 2 Minibatch:   201 loss: 1.340
Epoch: 2 Minibatch:   301 loss: 1.499
Epoch: 2 Minibatch:   401 loss: 1.420
Epoch: 2 Minibatch:   501 loss: 1.547
Epoch: 2 Minibatch:   601 loss: 1.319
Epoch: 2 Minibatch:   701 loss: 1.451
Epoch: 3 Minibatch:     1 loss: 1.228
Epoch: 3 Minibatch:   101 loss: 1.169
Epoch: 3 Minibatch:   201 loss: 1.439
Epoch: 3 Minibatch:   301 loss: 1.238
Epoch: 3 Minibatch:   401 loss: 1.159
Epoch: 3 Minibatch:   501 loss: 1.176
Epoch: 3 Minibatch:   601 loss: 1.024
Epoch: 3 Minibatch:   701 loss: 1.256
Epoch: 4 Minibatch:     1 loss: 1.492
Epoch: 4 Minibatch:   101 loss: 1.058
Epoch: 4 Minibatch:   201 loss: 1.223
Epoch: 4 Minibatch:   301 loss: 1.197
Epoch: 4 Minibatch:   401 loss: 1.016
Epoch: 4 Minibatch:   501 loss: 1.225
Epoch: 4 Minibatch:   601 loss: 1.282
Epoch: 4 Minibatch:   701 loss: 1.298
Epoch: 5 Minibatch:     1 loss: 1.157
Epoch: 5 Minibatch:   101 loss: 0.995
Epoch: 5 Minibatch:   201 loss: 0.974
Epoch: 5 Minibatch:   301 loss: 0.866
Epoch: 5 Minibatch:   401 loss: 0.971
Epoch: 5 Minibatch:   501 loss: 0.976
Epoch: 5 Minibatch:   601 loss: 1.036
Epoch: 5 Minibatch:   701 loss: 1.056
Epoch: 6 Minibatch:     1 loss: 1.148
Epoch: 6 Minibatch:   101 loss: 1.101
Epoch: 6 Minibatch:   201 loss: 1.187
Epoch: 6 Minibatch:   301 loss: 1.047
Epoch: 6 Minibatch:   401 loss: 1.121
Epoch: 6 Minibatch:   501 loss: 0.996
Epoch: 6 Minibatch:   601 loss: 0.949
Epoch: 6 Minibatch:   701 loss: 1.005
Epoch: 7 Minibatch:     1 loss: 0.850
Epoch: 7 Minibatch:   101 loss: 0.842
Epoch: 7 Minibatch:   201 loss: 1.065
Epoch: 7 Minibatch:   301 loss: 0.972
Epoch: 7 Minibatch:   401 loss: 0.913
Epoch: 7 Minibatch:   501 loss: 1.146
Epoch: 7 Minibatch:   601 loss: 1.141
Epoch: 7 Minibatch:   701 loss: 0.906
Epoch: 8 Minibatch:     1 loss: 0.955
Epoch: 8 Minibatch:   101 loss: 0.963
Epoch: 8 Minibatch:   201 loss: 0.918
Epoch: 8 Minibatch:   301 loss: 0.605
Epoch: 8 Minibatch:   401 loss: 1.102
Epoch: 8 Minibatch:   501 loss: 0.856
Epoch: 8 Minibatch:   601 loss: 0.859
Epoch: 8 Minibatch:   701 loss: 1.062
Epoch: 9 Minibatch:     1 loss: 1.019
Epoch: 9 Minibatch:   101 loss: 0.815
Epoch: 9 Minibatch:   201 loss: 0.847
Epoch: 9 Minibatch:   301 loss: 0.858
Epoch: 9 Minibatch:   401 loss: 0.934
Epoch: 9 Minibatch:   501 loss: 1.065
Epoch: 9 Minibatch:   601 loss: 0.800
Epoch: 9 Minibatch:   701 loss: 0.824
Epoch: 10 Minibatch:     1 loss: 0.747
Epoch: 10 Minibatch:   101 loss: 0.791
Epoch: 10 Minibatch:   201 loss: 0.840
Epoch: 10 Minibatch:   301 loss: 0.956
Epoch: 10 Minibatch:   401 loss: 0.914
Epoch: 10 Minibatch:   501 loss: 1.005
Epoch: 10 Minibatch:   601 loss: 0.884
Epoch: 10 Minibatch:   701 loss: 1.147
Finished Training


# 得到一组图像
images, labels = next(iter(testloader))
# 展示图像
# 展示图像的标签
for j in range(8):


outputs = net(images.to(device))
_, predicted = torch.max(outputs, 1)

# 展示预测的结果
for j in range(8):


dog ship ship plane frog frog car frog


correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %d %%' % (
    100 * correct / total))


Accuracy of the network on the 10000 test images: 63 %

3. 使用 VGG16 对 CIFAR10 分类

VGG 是由 Simonyan 和 Zisserman 在文献《Very Deep Convolutional Networks for Large Scale Image Recognition》中提出卷积神经网络模型,其名称来源于作者所在的牛津大学视觉几何组(Visual Geometry Group)的缩写。

该模型参加2014年的 ImageNet图像分类与定位挑战赛,取得了优异成绩:在分类任务上排名第二,在定位任务上排名第一。





  • 01:Convolution using 64 filters
  • 02: Convolution using 64 filters + Max pooling
  • 03: Convolution using 128 filters
  • 04: Convolution using 128 filters + Max pooling
  • 05: Convolution using 256 filters
  • 06: Convolution using 256 filters
  • 07: Convolution using 256 filters + Max pooling
  • 08: Convolution using 512 filters
  • 09: Convolution using 512 filters
  • 10: Convolution using 512 filters + Max pooling
  • 11: Convolution using 512 filters
  • 12: Convolution using 512 filters
  • 13: Convolution using 512 filters + Max pooling
  • 14: Fully connected with 4096 nodes
  • 15: Fully connected with 4096 nodes
  • 16: Softmax

3.1. 定义 dataloader

import torch
import torchvision
import torchvision.transforms as transforms
import matplotlib.pyplot as plt
import numpy as np
import torch.nn as nn
import torch.nn.functional as F
import torch.optim as optim

# 使用GPU训练,可以在菜单 "代码执行工具" -> "更改运行时类型" 里进行设置
device = torch.device("cuda:0" if torch.cuda.is_available() else "cpu")

transform_train = transforms.Compose([
    transforms.RandomCrop(32, padding=4),
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

transform_test = transforms.Compose([
    transforms.Normalize((0.4914, 0.4822, 0.4465), (0.2023, 0.1994, 0.2010))])

trainset = torchvision.datasets.CIFAR10(root='./data', train=True,  download=True, transform=transform_train)
testset  = torchvision.datasets.CIFAR10(root='./data', train=False, download=True, transform=transform_test)

trainloader = torch.utils.data.DataLoader(trainset, batch_size=128, shuffle=True, num_workers=2)
testloader = torch.utils.data.DataLoader(testset, batch_size=128, shuffle=False, num_workers=2)

classes = ('plane', 'car', 'bird', 'cat',
           'deer', 'dog', 'frog', 'horse', 'ship', 'truck')

3.2. VGG 网络定义

VGG 网络结构为:

  • 64 conv, maxpooling,
  • 128 conv, maxpooling,
  • 256 conv, 256 conv, maxpooling,
  • 512 conv, 512 conv, maxpooling,
  • 512 conv, 512 conv, maxpooling,
  • softmax


class VGG(nn.Module):
    def __init__(self):
        super(VGG, self).__init__()
        self.cfg = [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M']
        self.features = self._make_layers(self.cfg)
        self.classifier = nn.Linear(512, 10)

    def forward(self, x):
        out = self.features(x)
        out = out.view(out.size(0), -1)
        out = self.classifier(out)
        return out

    def _make_layers(self, cfg):
        layers = []
        in_channels = 3
        for x in cfg:
            if x == 'M':
                layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
                layers += [nn.Conv2d(in_channels, x, kernel_size=3, padding=1),
                in_channels = x
        layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
        return nn.Sequential(*layers)
# 网络放到GPU上
net = VGG().to(device)
criterion = nn.CrossEntropyLoss()
optimizer = optim.Adam(net.parameters(), lr=0.001)

3.3. 网络训练

for epoch in range(10):  # 重复多轮训练
    for i, (inputs, labels) in enumerate(trainloader):
        inputs = inputs.to(device)
        labels = labels.to(device)
        # 优化器梯度归零
        # 正向传播 + 反向传播 + 优化 
        outputs = net(inputs)
        loss = criterion(outputs, labels)
        # 输出统计信息
        if i % 100 == 0:   
            print('Epoch: %d Minibatch: %5d loss: %.3f' %(epoch + 1, i + 1, loss.item()))

print('Finished Training')


Epoch: 1 Minibatch:     1 loss: 2.538
Epoch: 1 Minibatch:   101 loss: 1.650
Epoch: 1 Minibatch:   201 loss: 1.342
Epoch: 1 Minibatch:   301 loss: 1.204
Epoch: 2 Minibatch:     1 loss: 1.071
Epoch: 2 Minibatch:   101 loss: 1.077
Epoch: 2 Minibatch:   201 loss: 0.880
Epoch: 2 Minibatch:   301 loss: 0.824
Epoch: 3 Minibatch:     1 loss: 0.942
Epoch: 3 Minibatch:   101 loss: 0.827
Epoch: 3 Minibatch:   201 loss: 0.693
Epoch: 3 Minibatch:   301 loss: 0.692
Epoch: 4 Minibatch:     1 loss: 0.669
Epoch: 4 Minibatch:   101 loss: 0.761
Epoch: 4 Minibatch:   201 loss: 0.576
Epoch: 4 Minibatch:   301 loss: 0.631
Epoch: 5 Minibatch:     1 loss: 0.633
Epoch: 5 Minibatch:   101 loss: 0.640
Epoch: 5 Minibatch:   201 loss: 0.605
Epoch: 5 Minibatch:   301 loss: 0.470
Epoch: 6 Minibatch:     1 loss: 0.501
Epoch: 6 Minibatch:   101 loss: 0.522
Epoch: 6 Minibatch:   201 loss: 0.582
Epoch: 6 Minibatch:   301 loss: 0.439
Epoch: 7 Minibatch:     1 loss: 0.477
Epoch: 7 Minibatch:   101 loss: 0.437
Epoch: 7 Minibatch:   201 loss: 0.400
Epoch: 7 Minibatch:   301 loss: 0.523
Epoch: 8 Minibatch:     1 loss: 0.357
Epoch: 8 Minibatch:   101 loss: 0.507
Epoch: 8 Minibatch:   201 loss: 0.415
Epoch: 8 Minibatch:   301 loss: 0.496
Epoch: 9 Minibatch:     1 loss: 0.325
Epoch: 9 Minibatch:   101 loss: 0.454
Epoch: 9 Minibatch:   201 loss: 0.509
Epoch: 9 Minibatch:   301 loss: 0.364
Epoch: 10 Minibatch:     1 loss: 0.319
Epoch: 10 Minibatch:   101 loss: 0.313
Epoch: 10 Minibatch:   201 loss: 0.337
Epoch: 10 Minibatch:   301 loss: 0.335
Finished Training

前向传播过程中出现了一个 mat1 and mat2 shapes cannot be multiplied (128x512 and 2048x10)错误,这里是由于矩阵相乘时前后两个矩阵的行和列不符合矩阵惩罚,将后一个矩阵的行数修改为前一个矩阵的列数即可。

3.4. 测试验证准确率

correct = 0
total = 0

for data in testloader:
    images, labels = data
    images, labels = images.to(device), labels.to(device)
    outputs = net(images)
    _, predicted = torch.max(outputs.data, 1)
    total += labels.size(0)
    correct += (predicted == labels).sum().item()

print('Accuracy of the network on the 10000 test images: %.2f %%' % (
    100 * correct / total))


Accuracy of the network on the 10000 test images: 82.87 %

可以看到,使用一个简化版的 VGG 网络,就能够显著地将准确率由 64%,提升到 82.87%

4. 思考问题

4.1. dataloader 里面 shuffle 取不同值有什么区别?

shuffle 是 bool 类型的参数,当 shuffle 为 True 时,加载数据集数据时会先将数据打乱,shuffle 为 False 时不打乱,打乱顺序会使得每轮训练中的数据序列都不一样,消除了数据排列对训练效果的影响。

4.2. transform 里,取了不同值,这个有什么区别?


normalize 是用给定的均值和标准差分别对每个通道的数据进行正则化,对每个通道的操作如下:

output[channel] = (input[channel] - mean[channel]) / std[channel]

normalize(mean, std) 将数据处理为均值为 0,标准差为 1 的分布。

数据在 normalize 之前是 [0,1] 之间,normalize 之后数据是 [-1,1] 之间的。

4.3. epoch 和 batch 的区别?

batch 大小是梯度下降的超参数,它定义在更新模型的内部参数之前要处理的训练样本的数量。batch 大小是在更新模型之前处理的样本数。

epoch 数是定义通过训练数据集的完整通过数的梯度下降的超参数。一个 epoch 由一个或多个 batch 组成。epoch数是训练数据集的完整通过数。

batch 的大小必须大于或等于1,并且小于或等于训练数据集中的样本数。

4.4. 1x1 的卷积和 FC 有什么区别?主要起什么作用?

1x1 的卷积和 FC 在数学本质上没什么区别,都是特征图中的元素乘以权重再求和。

1x1 卷积的作用主要是用于减少或者增加特征图的层数,起降维的作用。

4.5. residual leanring 为什么能够提升准确率?


4.6. 代码练习二里,网络和1989年 Lecun 提出的 LeNet 有什么区别?

激活函数不同,LeNet 使用 sigmoid 激活函数,代码练习二中使用 ReLu 激活函数;

数据的尺寸不一样,CIFAR10 是 32x32,但 MNIST 是 28x28;

练习二中使用的是最大池化,而 LeNet 使用的是平均池化。

4.7. 代码练习二里,卷积以后feature map 尺寸会变小,如何应用 Residual Learning?

可以使用 1x1 卷积来调整维度和 feature map 尺寸。

4.8. 有什么方法可以进一步提升准确率?


使用 Dropout 防止过拟合;

使用多个较小的卷积核来代替一个较大的卷积核,例如用两个 3x3 的卷积核来替代一个 5x5 的卷积核。

