图像分类代码学习笔记
图像分类代码学习笔记
数据集描述
数据集为美国手语图像数据(American Sign Language),包含87000张图像,每张图片都是200×200像素,总共有29个类,其中26个类表示字母 A-Z,剩下三种表示空格、删除和什么都没有。
代码笔记
train_data_path = '../input/asl-alphabet/asl_alphabet_train/asl_alphabet_train/'
train_data_path 存储训练数据集的轮径。
train_transforms = transforms.Compose([
transforms.Resize(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
])
test_transforms = transforms.Compose([
transforms.Resize(224),
transforms.ToTensor(),
transforms.Normalize(mean=[0.485, 0.456, 0.406],
std=[0.229, 0.224, 0.225])
])
原始数据的格式不一定和训练所需的数据格式相同。我们使用transforms模块对数据进行操作,使其适合训练。
transforms.Compose()
的主要作用是串联多个图片变换的操作。
transforms.Resize()
是调整 PILImage 对象的尺寸,注意不能是用 io.imread 或者 cv2.imread 读取的图片,这两种方法得到的是 ndarray。
将图片短边缩放至x,长宽比保持不变:
transforms.Resize(x)
而一般输入深度网络的特征图长宽是相等的,就不能采取等比例缩放的方式了,需要同时指定长宽:
transforms.Resize([h, w])
transform.ToTensor()
将PILImage 或者 numpy 的 ndarray 转化成 Tensor。
transform.Normalize()
逐channel的对图像进行标准化(均值变为0,标准差变为1),可以加快模型的收敛。
这里的参数 mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225])
使用的数据是 ImageNet 数据集的均值和标准差。
如何计算图片的 mean 和 std:如何计算pytorch中图像输入的均值和方差
train_dataset = datasets.ImageFolder(train_data_path, transform=train_transforms)
val_dataset = datasets.ImageFolder(train_data_path, transform=test_transforms)
Datasets 都是 torch.utils.data.Dataset 的子类,所以,他们也可以通过 torch.utils.data.DataLoader
使用多线程(python的多进程)。
ImageFolder假设所有的文件按文件夹保存,每个文件夹下存储同一个类别的图片,文件夹名为类名,其构造函数如下:
ImageFolder(root, transform=None, target_transform=None, loader=default_loader)
- root:在 root 指定的路径下寻找图片
- transform:对 PIL Image 进行的转换操作,transform 的输入是使用 loader 读取图片的返回对象
- target_transform:对 label 的转换
- loader:给定路径后如何读取图片,默认读取为 RGB 格式的 PIL Image 对象
# 数据集划分
torch.manual_seed(1)
num_train_samples = len(full_dataset)
# num_train_samples = 5000
full_dataset, _ = torch.utils.data.random_split(full_dataset, [num_train_samples, len(full_dataset)-num_train_samples])
train_size = int(0.6 * num_train_samples)
val_size = int(0.2 * num_train_samples)
test_size = num_train_samples - train_size - val_size
train_dataset, val_dataset, test_dataset = torch.utils.data.random_split(full_dataset, [train_size, val_size, test_size])
len(train_dataset), len(val_dataset), len(test_dataset)
torch.manual_seed()
设置随机数种子。
torhc.utils.data.random_split
对数据集进行随机划分,其中第一个参数是待划分的数据集,第二个参数是一个列表,其中存储划分后各个数据集占原数据集的比例。
这里划分后训练集、验证集和测试集的比例为 6:2:2。
# 设置 Dataloader
batch_size = 64 # 设置 batch_size
train_dataloader = torch.utils.data.DataLoader(
dataset=train_dataset,
batch_size=batch_size,
shuffle=True
)
val_dataloader = torch.utils.data.DataLoader(
dataset=val_dataset,
batch_size=batch_size,
shuffle=False
)
这一步将数据集装入 Pytorch 的 DataLoader,DataLoader 可以在训练时自动从 Dataset 中抽取样本进行训练,并且能够成批抽取,形成 Batch。
resnet = models.resnet50(pretrained=True) # 直接使用 Pytorch 官方提供的 resnet 模型,并且获取预训练参数
Pytorch 封装了许多常见的模型,这里使用 Pytorch 提供的 ResNet50 模型,并且加载了模型提供的预训练参数。
# 冻结特征层的参数,进行迁移学习
for param in resnet.parameters():
param.requires_grad = False
# 更换全连接层,调整输入和输出,释放全连接层的参数
in_features = resnet.fc.in_features
fc = nn.Linear(in_features=in_features, out_features=len(classes))
resnet.fc = fc
这一步冻结了特征层的参数,在后续的训练中不再需要对特征层的参数进行反向传播和更新,降低了训练的难度,这一步属于迁移学习。同时,由于全连接层的大小取决于输出的类别,所以需要对 ResNet50 模型的全连接层进行修改。
# 需要更新的参数(上一步中更换的全连接层参数)
params_to_update = []
for name, param in resnet.named_parameters():
if param.requires_grad:
params_to_update.append(param)
确定需要更新的参数,其实就是全连接层的参数,最后的全连接层主要负责分类,而之前的层叫做特征层,主要用于特征提取。
criterion = nn.CrossEntropyLoss() # 交叉熵损失
optimizer = torch.optim.Adam(params_to_update, lr=0.001) # Adam 优化器
设置损失函数和优化器,多分类任务常用的损失函数就是交叉熵损失,这里优化器选择 Adam 优化器。
# 选择显卡进行训练
device = 'cuda' if torch.cuda.is_available() else 'cpu'
device
设置显卡。
from time import time
from tqdm import tqdm # 进度条
# 训练过程
def train(model,
criterion,
optimizer,
train_dataloader,
val_dataloader,
print_every,
num_epoch):
'''
:param model: Pytorch模型
:param criterion: 损失函数
:param optimizer: 优化器
:param train_dataloader: 训练集
:param val_dataloader: 验证集
:param print_every: 多少个 epochs 输出一次
:param num_epoch: 训练多少个 epochs
:returns model: 模型
:returns train_losses 训练集损失
:returns val_losses 验证集损失
'''
steps = 0
train_losses, val_losses = [], []
train_accuracy, val_accuracy = [], []
model.to(device)
for epoch in tqdm(range(num_epoch)):
running_loss = 0
correct_train = 0
total_train = 0
start_time = time()
iter_time = time()
model.train()
for i, (images, labels) in enumerate(train_dataloader):
steps += 1
# 把数据放到 GPU
images = images.to(device)
labels = labels.to(device)
if epoch == 0 and i == 0:
torch.onnx.export(resnet, images, 'resnet.pth')
# 前向传播
output = model(images)
loss = criterion(output, labels)
correct_train += (torch.max(output, dim=1)[1] == labels).sum().item()
total_train += labels.size(0)
# 反向传播与优化
optimizer.zero_grad()
loss.backward()
optimizer.step()
running_loss += loss.item()
# 记录输出
if steps % print_every == 0:
print(f'Epoch [{epoch + 1}]/[{num_epoch}]. Batch [{i + 1}]/[{len(train_dataloader)}].', end=' ') # epoch数量
print(f'Train loss {running_loss / steps:.3f}.', end=' ')
print(f'Train acc {correct_train / total_train * 100:.3f}.', end=' ')
train_accuracy.append(correct_train / total_train)
# 使用验证集评估模型训练过程中的表现
with torch.no_grad():
model.eval()
correct_val, total_val = 0, 0
val_loss = 0
for images, labels in val_dataloader:
images = images.to(device)
labels = labels.to(device)
output = model(images)
loss = criterion(output, labels)
val_loss += loss.item()
correct_val += (torch.max(output, dim=1)[1] == labels).sum().item()
total_val += labels.size(0)
print(f'Val loss {val_loss / len(val_dataloader):.3f}. Val acc {correct_val / total_val * 100:.3f}.', end=' ')
print(f'Took {time() - iter_time:.3f} seconds')
val_accuracy.append(correct_val / total_val)
iter_time = time()
train_losses.append(running_loss / total_train)
val_losses.append(val_loss / total_val)
print(f'Epoch took {time() - start_time}')
# 保存断点
checkpoint = {"model_state_dict": model.state_dict(),
"optimizer_state_dict": optimizer.state_dict(),
"epoch": epoch}
path_checkpoint = "./checkpoint_{}_epoch.pkl".format(epoch)
torch.save(checkpoint, path_checkpoint)
return model, train_losses, val_losses, train_accuracy, val_accuracy
定义训练过程,包括前向传播、反向传播、优化,每50次迭代使用验证集进行评估测试,并且输出信息。
print_every = 50 # 每50次迭代输出一次
num_epoch = 5 # 训练的epochs数量
resnet, train_losses, val_losses, train_accuracy, val_accuracy = train(
model=resnet,
criterion=criterion,
optimizer=optimizer,
train_dataloader=train_dataloader,
val_dataloader=val_dataloader,
print_every=print_every,
num_epoch=num_epoch
)
实际调用训练过程,设置多少次迭代输出一次,以及设置训练多少个 epoch。
# 召回变化
plt.rcParams.update({"font.size": 10})
plt.plot(train_losses, label='Training loss')
plt.plot(val_losses, label='Validation loss')
plt.legend(frameon=False)
plt.savefig('/kaggle/working/loss', dpi=250)
plt.show()
使用 matplotlib 绘制损失变化曲线。
# 准确率变化
plt.rcParams.update({"font.size": 10})
plt.plot(train_accuracy, label='Training Accuracy')
plt.plot(val_accuracy, label='Validation Accuracy')
plt.legend(frameon=False)
plt.savefig('/kaggle/working/accuracy', dpi=250)
plt.show()
准确率变化曲线。
y_true = []
y_pred = []
# 测试过程
i, j = 0, 0
for img, label in test_dataset:
img = torch.Tensor(img[None])
img = img.to(device)
resnet.eval()
prediction = resnet(img) # 在 img 最前面加上一维(batch维度)
prediction_class = int(torch.max(prediction, dim=1)[1])
y_pred.append(prediction_class)
y_true.append(label)
测试过程,后续使用 scikit-learn 对测试结果进行评估,评估过程记录每个样本的真实标签 y_true 和预测值(标签)y_pred。
# 正确率
from sklearn.metrics import accuracy_score
accuracy_score(y_true, y_pred)
# 混淆矩阵
from sklearn.metrics import confusion_matrix
conf_matrix = confusion_matrix(y_true, y_pred)
xtick = classes
ytick = classes
plt.rcParams.update({"font.size": 5})
plt.savefig('/kaggle/working/conf_matrix', dpi=250)
sns.heatmap(conf_matrix, fmt='g', cmap='Blues', annot=True, cbar=False, xticklabels=xtick, yticklabels=ytick)
# 精确率
from sklearn.metrics import precision_score
precision_list = precision_score(y_true, y_pred, average=None)
precision_list
# 精确率
from sklearn.metrics import recall_score
recall_list = recall_score(y_true, y_pred, average=None)
recall_list
# 分类准确率/雅卡得相似系数
from sklearn.metrics import jaccard_score
accuracy_list = jaccard_score(y_true, y_pred, average=None)
accuracy_list
# f1 and macro-f1
from sklearn.metrics import f1_score
f1_list = f1_score(y_true, y_pred, average=None)
macro_f1 = f1_score(y_true, y_pred, average='macro')
f1_list, macro_f1
使用 scikit-learn 对结果进行评估,包括正确率、分类准确率、分类召回率、混淆矩阵、F1分数等指标,具体评估方法可以参考 scikit-learn 的参考手册。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· winform 绘制太阳,地球,月球 运作规律
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理