pytorch简单识别CIFAR10彩色图片的卷积神经网络

环境：

python 3.11.10

pytorch 2.3.0

一、前期准备

1.设置GPU

import torch
import torch.nn as nn
import matplotlib.pyplot as plt
import torchvision

device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
device

2. 导入数据

使用dataset下载CIFAR10数据集，并划分好训练集与测试集
使用dataloader加载数据，并设置好基本的batch_size

train_ds = torchvision.datasets.CIFAR10('./data',
                                        train=True,
                                        transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                        download=True)

test_ds  = torchvision.datasets.CIFAR10('./data',
                                        train=False,
                                        transform=torchvision.transforms.ToTensor(), # 将数据类型转化为Tensor
                                        download=True)

batch_size = 32
train_dl = torch.utils.data.DataLoader(train_ds,
                                       batch_size=batch_size,
                                       shuffle=True)
test_dl  = torch.utils.data.DataLoader(test_ds,
                                       batch_size=batch_size)

# 取一个批次查看数据格式
# 数据的shape为：[batch_size, channel, height, weight]
# 其中batch_size为自己设定，channel，height和weight分别是图片的通道数，高度和宽度。
imgs, labels = next(iter(train_dl))
print(imgs.shape)

3. 数据可视化

squeeze()函数的功能是从矩阵shape中，去掉维度为1的。例如一个矩阵是的shape是（5, 1），使用过这个函数后，结果为（5, ）

# 指定图片大小，图像大小为20宽、5高的绘图(单位为英寸inch)
plt.figure(figsize=(20, 5))
for i, imgs in enumerate(imgs[:20]):
    # 维度缩减
    npimg = imgs.numpy().transpose((1, 2, 0))
    # 将整个figure分成2行10列，绘制第i+1个子图。
    plt.subplot(2, 10, i+1)
    plt.imshow(npimg, cmap=plt.cm.binary)
    plt.axis('off')
plt.show()

也可以换一种显示方式，把标签也显示出来

fig = plt.figure()
classes=['plane','car','bird','cat','deer','dog','frog','horse','ship','truck']
for i in range(12):
    plt.subplot(3, 4, i+1)
    plt.tight_layout()
    (_, label) = train_ds[i]
    plt.imshow(train_dl.dataset.data[i],cmap=plt.cm.binary)
    plt.title("Labels: {}".format(classes[label]))
    plt.xticks([])
    plt.yticks([])
plt.show()

二、构建简单的CNN网络
对于一般的CNN网络来说，都是由特征提取网络和分类网络构成，其中特征提取网络用于提取图片的特征，分类网络用于将图片进行分类。

1.torch.nn.Conv2d()详解
函数原型：torch.nn.Conv2d(in_channels, out_channels, kernel_size, stride=1, padding=0, dilation=1, groups=1, bias=True, padding_mode='zeros', device=None, dtype=None)
参数说明：
in_channels (int) – 输入信号的通道数（即图片的通道数）。
out_channels (int) – 卷积产生的通道数。
kernel_size (int or tuple) – 卷积核的尺寸。
stride (int or tuple, optional) – 卷积步长。默认值：1
padding (int or tuple, optional) – 输入的每一条边补充0的层数。默认值：0
dilation (int or tuple, optional) – 卷积核元素之间的间距。默认值：1
groups (int, optional) – 从输入通道到输出通道的阻塞连接数。默认值：1
bias (bool, optional) – 如果bias=True，添加偏置。默认值：True
padding_mode (string, optional) – 边界模式，可以是‘zeros’、‘reflect’、‘replicate’或‘circular’。默认值：‘zeros’
device (torch.device, optional) – 输出数据的设备。默认值：None
dtype (torch.dtype, optional) – 输出数据的类型。默认值：None
2.torch.nn.Linear()详解
函数原型：torch.nn.Linear(in_features, out_features, bias=True, device=None, dtype=None)
参数说明：
in_features (int) – 输入特征的数量
out_features (int) – 输出特征的数量
bias (bool, optional) – 如果bias=True，添加偏置。默认值：True
device (torch.device, optional) – 输出数据的设备。默认值：None
dtype (torch.dtype, optional) – 输出数据的类型。默认值：None
3.torch.nn.MaxPool2d()详解
函数原型：torch.nn.MaxPool2d(kernel_size, stride=None, padding=0, dilation=1, return_indices=False, ceil_mode=False)
参数说明：
kernel_size (int or tuple) – 池化窗口的大小。
stride (int or tuple, optional) – 池化窗口的步长。默认值：kernel_size
padding (int or tuple, optional) – 在输入上填充0的层数。默认值：0
dilation (int or tuple, optional) – 池化窗口的膨胀率。默认值：1
return_indices (bool, optional) – 如果为True，返回最大值的索引。默认值：False
ceil_mode (bool, optional) – 如果为True，使用ceil来计算输出大小。默认值：False
4.关于卷积层、池化层的计算
卷积层：

输入特征图大小为(H, W)
卷积核大小为(kH, kW)
步长为(sH, sW)
填充为(pH, pW)
输出特征图大小为(H’, W’)
计算公式：H’ = (H + 2pH - kH) / sH + 1
W’ = (W + 2pW - kW) / sW + 1
池化层：

输入特征图大小为(H, W)
池化窗口大小为(kH, kW)
步长为(sH, sW)
填充为(pH, pW)
输出特征图大小为(H’, W’)
计算公式：H’ = (H - kH) / sH + 1
W’ = (W - kW) / sW + 1
下面的网络数据shape变化过程为：
3, 32, 32（输入数据）

-> 64, 30, 30（经过卷积层1）-> 64, 15, 15（经过池化层1）

-> 64, 13, 13（经过卷积层2）-> 64, 6, 6（经过池化层2）

-> 128, 4, 4（经过卷积层3） -> 128, 2, 2（经过池化层3）

-> 512 -> 256 -> num_classes(10)

num_classes = 10  # 图片的类别数

class Model(nn.Module):
    def __init__(self):
        super().__init__()
        # 特征提取网络
        self.conv1 = nn.Conv2d(3, 64, kernel_size=3)   # 第一层卷积,卷积核大小为3*3
        self.pool1 = nn.MaxPool2d(kernel_size=2)       # 设置池化层，池化核大小为2*2
        self.conv2 = nn.Conv2d(64, 64, kernel_size=3)  # 第二层卷积,卷积核大小为3*3
        self.pool2 = nn.MaxPool2d(kernel_size=2)
        self.conv3 = nn.Conv2d(64, 128, kernel_size=3) # 第二层卷积,卷积核大小为3*3
        self.pool3 = nn.MaxPool2d(kernel_size=2)

        # 分类网络
        self.fc1 = nn.Linear(512, 256)
        self.fc2 = nn.Linear(256, num_classes)
        # 前向传播
    def forward(self, x):
        x = self.pool1(F.relu(self.conv1(x)))
        x = self.pool2(F.relu(self.conv2(x)))
        x = self.pool3(F.relu(self.conv3(x)))

        x = torch.flatten(x, start_dim=1)

        x = F.relu(self.fc1(x))
        x = self.fc2(x)
        return x

加载并打印模型

# 将模型转移到GPU中（我们模型运行均在GPU中进行）
model = Model().to(device)
summary(model)

显示数据

=================================================================
Layer (type:depth-idx)                   Param #
=================================================================
Model                                    --
├─Conv2d: 1-1                            1,792
├─MaxPool2d: 1-2                         --
├─Conv2d: 1-3                            36,928
├─MaxPool2d: 1-4                         --
├─Conv2d: 1-5                            73,856
├─MaxPool2d: 1-6                         --
├─Linear: 1-7                            131,328
├─Linear: 1-8                            2,570
=================================================================
Total params: 246,474
Trainable params: 246,474
Non-trainable params: 0
=================================================================

三、训练模型

1. 设置参数

loss_fn = nn.CrossEntropyLoss()  # 创建损失函数
learn_rate = 1e-2  # 学习率
opt = torch.optim.SGD(model.parameters(), lr=learn_rate)

2. 编写训练函数

1.optimizer.zero_grad()

函数会遍历模型的所有参数，通过内置方法截断反向传播的梯度流，再将每个参数的梯度值设为0，即上一次的梯度记录被清空。

2.loss.backward()

PyTorch的反向传播(即tensor.backward())是通过autograd包来实现的，autograd包会根据tensor进行过的数学运算来自动计算其对应的梯度。

具体来说，torch.tensor是autograd包的基础类，如果你设置tensor的requires_grads为True，就会开始跟踪这个tensor上面的所有运算，如果你做完运算后使用tensor.backward()，所有的梯度就会自动运算，tensor的梯度将会累加到它的.grad属性里面去。

更具体地说，损失函数loss是由模型的所有权重w经过一系列运算得到的，若某个w的requires_grads为True，则w的所有上层参数（后面层的权重w）的.grad_fn属性中就保存了对应的运算，然后在使用loss.backward()后，会一层层的反向传播计算每个w的梯度值，并保存到该w的.grad属性中。

如果没有进行tensor.backward()的话，梯度值将会是None，因此loss.backward()要写在optimizer.step()之前。

3.optimizer.step()

step()函数的作用是执行一次优化步骤，通过梯度下降法来更新参数的值。因为梯度下降是基于梯度的，所以在执行optimizer.step()函数前应先执行loss.backward()函数来计算梯度。

注意：optimizer只负责通过梯度下降进行优化，而不负责产生梯度，梯度是tensor.backward()方法产生的。

# 训练循环
def train(dataloader, model, loss_fn, optimizer):
    size = len(dataloader.dataset)  # 训练集的大小，一共60000张图片
    num_batches = len(dataloader)   # 批次数目，1875（60000/32）

    train_loss, train_acc = 0, 0  # 初始化训练损失和正确率

    for X, y in dataloader:  # 获取图片及其标签
        X, y = X.to(device), y.to(device)

        # 计算预测误差
        pred = model(X)          # 网络输出
        loss = loss_fn(pred, y)  # 计算网络输出和真实值之间的差距，targets为真实值，计算二者差值即为损失

        # 反向传播
        optimizer.zero_grad()  # grad属性归零
        loss.backward()        # 反向传播
        optimizer.step()       # 每一步自动更新

        # 记录acc与loss
        train_acc  += (pred.argmax(1) == y).type(torch.float).sum().item()
        train_loss += loss.item()

    train_acc  /= size
    train_loss /= num_batches

    return train_acc, train_loss

3. 编写测试函数

测试函数和训练函数大致相同，但是由于不进行梯度下降对网络权重进行更新，所以不需要传入优化器

def test (dataloader, model, loss_fn):
    size        = len(dataloader.dataset)  # 测试集的大小，一共10000张图片
    num_batches = len(dataloader)          # 批次数目，313（10000/32=312.5，向上取整）
    test_loss, test_acc = 0, 0

    # 当不进行训练时，停止梯度更新，节省计算内存消耗
    with torch.no_grad():
        for imgs, target in dataloader:
            imgs, target = imgs.to(device), target.to(device)

            # 计算loss
            target_pred = model(imgs)
            loss        = loss_fn(target_pred, target)

            test_loss += loss.item()
            test_acc  += (target_pred.argmax(1) == target).type(torch.float).sum().item()

    test_acc  /= size
    test_loss /= num_batches

    return test_acc, test_loss

4. 正式训练

1.model.train()

model.train()的作用是启用 Batch Normalization 和 Dropout。

如果模型中有BN层(Batch Normalization）和Dropout，需要在训练时添加model.train()。model.train()是保证BN层能够用到每一批数据的均值和方差。对于Dropout，model.train()是随机取一部分网络连接来训练更新参数。

2.model.eval()

model.eval()的作用是关闭 Batch Normalization 和 Dropout。

如果模型中有BN层(Batch Normalization）和Dropout，在测试时添加model.eval()。model.eval()是保证BN层能够用全部训练数据的均值和方差，即测试过程中要保证BN层的均值和方差不变。对于Dropout，model.eval()是利用到了所有网络连接，即不进行随机舍弃神经元。

训练完train样本后，生成的模型model要用来测试样本。在model(test)之前，需要加上model.eval()，否则的话，有输入数据，即使不训练，它也会改变权值。这是model中含有BN层和Dropout所带来的的性质。

if os.path.exists(path) is not True:
    epochs     = 10
    train_loss = []
    train_acc  = []
    test_loss  = []
    test_acc   = []
    for epoch in range(epochs):
        model.train()
        epoch_train_acc, epoch_train_loss = train(train_dl, model, loss_fn, opt)

        model.eval()
        epoch_test_acc, epoch_test_loss = test(test_dl, model, loss_fn)

        train_acc.append(epoch_train_acc)
        train_loss.append(epoch_train_loss)
        test_acc.append(epoch_test_acc)
        test_loss.append(epoch_test_loss)

        template = ('Epoch:{:2d}, Train_acc:{:.1f}%, Train_loss:{:.3f}, Test_acc:{:.1f}%，Test_loss:{:.3f}')
        print(template.format(epoch+1, epoch_train_acc*100, epoch_train_loss, epoch_test_acc*100, epoch_test_loss))
    print('Done')
    torch.save(model.state_dict(), path)

    warnings.filterwarnings("ignore")               #忽略警告信息
    plt.rcParams['font.sans-serif']    = ['SimHei'] # 用来正常显示中文标签
    plt.rcParams['axes.unicode_minus'] = False      # 用来正常显示负号
    plt.rcParams['figure.dpi']         = 100        #分辨率

    epochs_range = range(epochs)

    plt.figure(figsize=(12, 3))
    plt.subplot(1, 2, 1)

    plt.plot(epochs_range, train_acc, label='Training Accuracy')
    plt.plot(epochs_range, test_acc, label='Test Accuracy')
    plt.legend(loc='lower right')
    plt.title('Training and Validation Accuracy')

    plt.subplot(1, 2, 2)
    plt.plot(epochs_range, train_loss, label='Training Loss')
    plt.plot(epochs_range, test_loss, label='Test Loss')
    plt.legend(loc='upper right')
    plt.title('Training and Validation Loss')
    plt.show()

显示结果

Epoch: 1, Train_acc:14.9%, Train_loss:2.282, Test_acc:19.6%，Test_loss:2.163
Epoch: 2, Train_acc:25.2%, Train_loss:2.002, Test_acc:30.4%，Test_loss:1.877
Epoch: 3, Train_acc:35.0%, Train_loss:1.778, Test_acc:37.6%，Test_loss:1.730
Epoch: 4, Train_acc:40.7%, Train_loss:1.624, Test_acc:40.7%，Test_loss:1.635
Epoch: 5, Train_acc:44.7%, Train_loss:1.516, Test_acc:46.6%，Test_loss:1.457
Epoch: 6, Train_acc:48.7%, Train_loss:1.420, Test_acc:50.1%，Test_loss:1.371
Epoch: 7, Train_acc:52.1%, Train_loss:1.334, Test_acc:52.5%，Test_loss:1.325
Epoch: 8, Train_acc:55.1%, Train_loss:1.262, Test_acc:53.5%，Test_loss:1.314
Epoch: 9, Train_acc:57.4%, Train_loss:1.198, Test_acc:54.1%，Test_loss:1.276
Epoch:10, Train_acc:60.0%, Train_loss:1.142, Test_acc:58.9%，Test_loss:1.161
Done

四、测试分类结果

# 预测
model.eval()    #把模型转为test模式

# 定义一个函数来预处理图片
def preprocess_image(image_path, device):
    img = Image.open(image_path)
    # <PIL.PngImagePlugin.PngImageFile image mode=RGBA size=358x312 at 0x1009DAA90>
    # 这里我们可以看到默认的格式不是RGB格式的 ,而我们训练出的数据集只能处理三通道，所以我们需要对通道数由RGBA转化为RGB形式
    # print(img)
    # 将图片转化为RGB格式
    img = img.convert('RGB')
    # <PIL.Image.Image image mode=RGB size=358x312 at 0x103002BE0>
    # print(img)
    # 定义一个转化规则为transform，将图像转化为32x32像素，并且转化为tensor格式
    transform = torchvision.transforms.Compose([torchvision.transforms.Resize((32, 32)),
                                                torchvision.transforms.ToTensor()])
    img_tensor = transform(img)
    # torch.Size([3, 32, 32])
    # print(img_tensor.shape)

    img_tensor = torch.reshape(img_tensor, (1, 3, 32, 32))
    # torch.Size([1, 3, 32, 32])
    # print(img_tensor.shape)
    return img_tensor

# 这里替换为你的图片路径列表
image_paths = ['../test/cat.png', '../test/dog.png', '../test/car.png', '../test/car1.png', '../test/car2.png']
# plt.figure()
for i, image_path in enumerate(image_paths):
    # 预处理图片
    img = preprocess_image(image_path, device)
    output = model(img)
    print('output', "Labels: {}".format(classes[output.argmax(1)]))

    # 显示图片和预测结果
    plt.subplot(1, len(image_paths), i + 1)
    img = cv2.imread(image_path, cv2.IMREAD_COLOR)
    img = cv2.cvtColor(img, cv2.COLOR_BGR2RGB)
    plt.imshow(img)
    plt.axis('off')
    plt.title("Labels: {}".format(classes[output.argmax(1)]))
plt.show()

参考：https://blog.csdn.net/weixin_53657683/article/details/135547073

posted on 2024-11-13 09:46 xuanm 阅读(183) 评论(0) 收藏举报

刷新页面返回顶部

众妙之门

公告

一、前期准备

1.设置GPU

2. 导入数据

3. 数据可视化

三、训练模型

1. 设置参数

2. 编写训练函数

3. 编写测试函数

4. 正式训练

四、测试分类结果

众妙之门

公告

一、前期准备

1.设置GPU

2. 导入数据

3. 数据可视化

三、 训练模型

1. 设置参数

2. 编写训练函数

3. 编写测试函数

4. 正式训练

四、 测试分类结果

三、训练模型

四、测试分类结果