3.6.0 头文件
import torch
from IPython import display
from d2l import torch as d2l
from matplotlib import pyplot as plt
3.6.1 训练结果可视化
class Animator:
"""在动画中绘制数据"""
def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
ylim=None, xscale='linear', yscale='linear',
fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
figsize=(3.5, 2.5)):
# 增量地绘制多条线
if legend is None:
legend = []
d2l.use_svg_display()
self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
if nrows * ncols == 1:
self.axes = [self.axes, ]
# 使用lambda函数捕获参数
self.config_axes = lambda: d2l.set_axes(
self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
self.X, self.Y, self.fmts = None, None, fmts
def add(self, x, y):
# 向图表中添加多个数据点
if not hasattr(y, "__len__"):
y = [y]
n = len(y)
if not hasattr(x, "__len__"):
x = [x] * n
if not self.X:
self.X = [[] for _ in range(n)]
if not self.Y:
self.Y = [[] for _ in range(n)]
for i, (a, b) in enumerate(zip(x, y)):
if a is not None and b is not None:
self.X[i].append(a)
self.Y[i].append(b)
self.axes[0].cla()
for x, y, fmt in zip(self.X, self.Y, self.fmts):
self.axes[0].plot(x, y, fmt)
self.config_axes()
display.display(self.fig)
display.clear_output(wait=True)
3.6.2 累加器
# 定义一个累加器
class Accumulator:
"""在n个变量上累加"""
# 这个累加器中保存了n个累加值
def __init__(self, n):
self.data = [0.0] * n
# 对着n个累加值同时进行累加,a代表原值,b代表增量,两者之和代表累加后的值
def add(self, *args):
self.data = [a + float(b) for a, b in zip(self.data, args)]
def reset(self):
self.data = [0.0] * len(self.data)
def __getitem__(self, idx):
return self.data[idx]
3.6.3 下载fashion_mnist数据集
# 定义批量大小
batch_size = 256
# 下载fashion_mnist,并对数据集进行打乱和按批量大小进行切割的操作,得到可迭代的训练集和测试集(训练集和测试集的形式都为(特征数据集合,数字标签集合))
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
# ------------------------------定义网络模型,初始化权重参数------------------------------------
# 定义全连接层的输入特征个数为784个
num_inputs = 784
# 定义全连接层的输出类别为10个
num_outputs = 10
# 初始化权重矩阵W,元素值服从均值为0,方差为0.01的正态分布,权重规模为(10行,784列)
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
# 初始化偏移量为0,偏移量规模为10行
b = torch.zeros(num_outputs, requires_grad=True)
# 定义softmax操作
def softmax(X):
X_exp = torch.exp(X) # 对X中的每个元素取指数
partition = X_exp.sum(1, keepdim=True) # 计算X_exp中每行之和
return X_exp / partition # 这里应用了广播机制 # 计算X_exp中每个元素占当前行之和的比例
# 定义网络模型
def net(X):
return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)
3.6.3 初始化模型参数
# 定义全连接层的输入特征个数为784个
num_inputs = 784
# 定义全连接层的输出类别为10个
num_outputs = 10
# 输入特征为256(一个批量)行,784(特征数量)列
# 初始化权重矩阵W,元素值服从均值为0,方差为0.01的正态分布,权重规模为(784行,10列)
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
# 初始化偏移量为0,偏移量规模为10行
b = torch.zeros(num_outputs, requires_grad=True)
3.6.3 定义网络模型
# 定义softmax操作
def softmax(X):
X_exp = torch.exp(X) # 对X中的每个元素取指数
partition = X_exp.sum(1, keepdim=True) # 计算X_exp中每行之和
return X_exp / partition # 这里应用了广播机制 # 计算X_exp中每个元素占当前行之和的比例
# 定义网络模型
def net(X):
return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)
3.6.4 优化器
# 定义优化器:随机梯度下降优化算法
def updater(batch_size):
return d2l.sgd([W, b], lr, batch_size)
3.6.5 损失函数
# # 两个样本的真实标签分别为0,2
# y = torch.tensor([0, 2])
# # 两个样本在每种类别上预测的概率
# y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
# # 每个样本在真实标签上的预测概率
# # print(y_hat[[0, 1], y])
# # 输出:
# # tensor([0.1000, 0.5000])
# 定义交叉熵损失函数,返回每个样本的预测损失
# 公式为:-ln(样本1在真实标签上的预测概率)- ln(样本2在真实标签上的预测概率)-……
def cross_entropy(y_hat, y):
return - torch.log(y_hat[range(len(y_hat)), y])
# print(cross_entropy(y_hat, y))
# 输出:
# tensor([2.3026, 0.6931])
3.6.6 统计一个批量样本中,标签预测正确的样本数
# 定义一个函数,计算预测正确的样本个数
def accuracy(y_hat, y):
"""计算预测正确的数量"""
if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
# y_hat为每个样本的预测标签
y_hat = y_hat.argmax(axis=1)
# cmp中保存了每个样本的预测结果,预测正确的为True,预测错误的为False
cmp = y_hat.type(y.dtype) == y
# 返回预测为True的样本个数
return float(cmp.type(y.dtype).sum())
# 计算预测的正确率
# print(accuracy(y_hat, y) / len(y))
# 输出:
# 0.5
3.6.7 模型在整个训练集或测试集上的准确率
# net:定义的网络模型
# data_iter:打乱的并且根据批量大小切割好的训练集或测试集
# 计算网络模型在训练集或数据集上的预测准确率
def evaluate_accuracy(net, data_iter):
"""计算在指定数据集上模型的精度"""
if isinstance(net, torch.nn.Module):
net.eval() # 将模型设置为评估模式
# 定义一个累加器,累加器中保存着正确预测的样本个数和预测的总样本数
metric = Accumulator(2)
with torch.no_grad():
# 遍历整个训练集或测试集上的每个批量
for X, y in data_iter:
# 计算出一个批量中预测正确的样本数,以及本批量中所有样本的数量,并将其累加
metric.add(accuracy(net(X), y), y.numel())
# 返回该网络在训练集或数据集上的预测准确率
return metric[0] / metric[1]
# print(evaluate_accuracy(net, test_iter))
# 输出:
# 0.0977
# if __name__ == "__main__":
# print(evaluate_accuracy(net, test_iter))
3.6.8 进行一轮训练
# net:定义的网络模型
# train_iter:打乱的并且根据批量大小切割好的训练集
# loss:定义的损失函数
# updater:定义的优化器
# 进行一轮训练,返回本轮训练之后的平均损失和平均准确率
def train_epoch_ch3(net, train_iter, loss, updater):
"""训练模型一个迭代周期(定义见第3章)"""
# 将模型设置为训练模式
if isinstance(net, torch.nn.Module): # 没有走这里
net.train()
# 定义一个累加器,用来累加一轮训练过程中的损失之和、一轮训练过程中预测正确的样本数之和、一轮训练中参与训练的样本总数
metric = Accumulator(3)
# 每次迭代一个批量的训练样本
for X, y in train_iter:
# 计算出本批量中每个样本的预测值
y_hat = net(X)
# 计算出本批量中每个样本的损失值
l = loss(y_hat, y)
# 使用优化器对权重和偏移量进行更新优化
if isinstance(updater, torch.optim.Optimizer):
# 使用PyTorch内置的优化器和损失函数
updater.zero_grad()
l.mean().backward()
updater.step()
else:
# 使用定制的优化器和损失函数
l.sum().backward()
updater(X.shape[0])
# 将损失之和、预测正确的样本数之和、样本总数进行累加
metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
# 返回本轮训练之后的平均损失和平均准确率
return metric[0] / metric[2], metric[1] / metric[2]
3.6.9 完整训练过程
def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):
"""训练模型(定义见第3章)"""
# 定义一个动画来显示训练结果
animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],legend=['train loss', 'train acc', 'test acc'])
for epoch in range(num_epochs):
print("==========","epoch:",epoch,'==========')
# 进行一轮训练
train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
# 进行一轮训练之后,得到新的模型参数,计算模型在测试集上的准确率
test_acc = evaluate_accuracy(net, test_iter)
# 更新图像
animator.add(epoch + 1, train_metrics + (test_acc,))
# 最后一次训练完成后,
train_loss, train_acc = train_metrics
# 如果训练损失大于等于0.5,报错并打印出训练损失
assert train_loss < 0.5, train_loss
# 如果训练准确率不在[0.7,1]之间,报错并打印出准确率
assert train_acc <= 1 and train_acc > 0.7, train_acc
# 如果测试准确率不在[0.7,1]之间,报错并打印出准确率
assert test_acc <= 1 and test_acc > 0.7, test_acc
# 定义学习率
lr = 0.1
# 定义训练轮数
num_epochs = 10
# 开始训练
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)
plt.savefig('OutPut.png')
本小节完整代码如下
import torch
from IPython import display
from d2l import torch as d2l
from matplotlib import pyplot as plt
# ------------------------------训练结果可视化------------------------------------
class Animator:
"""在动画中绘制数据"""
def __init__(self, xlabel=None, ylabel=None, legend=None, xlim=None,
ylim=None, xscale='linear', yscale='linear',
fmts=('-', 'm--', 'g-.', 'r:'), nrows=1, ncols=1,
figsize=(3.5, 2.5)):
# 增量地绘制多条线
if legend is None:
legend = []
d2l.use_svg_display()
self.fig, self.axes = d2l.plt.subplots(nrows, ncols, figsize=figsize)
if nrows * ncols == 1:
self.axes = [self.axes, ]
# 使用lambda函数捕获参数
self.config_axes = lambda: d2l.set_axes(
self.axes[0], xlabel, ylabel, xlim, ylim, xscale, yscale, legend)
self.X, self.Y, self.fmts = None, None, fmts
def add(self, x, y):
# 向图表中添加多个数据点
if not hasattr(y, "__len__"):
y = [y]
n = len(y)
if not hasattr(x, "__len__"):
x = [x] * n
if not self.X:
self.X = [[] for _ in range(n)]
if not self.Y:
self.Y = [[] for _ in range(n)]
for i, (a, b) in enumerate(zip(x, y)):
if a is not None and b is not None:
self.X[i].append(a)
self.Y[i].append(b)
self.axes[0].cla()
for x, y, fmt in zip(self.X, self.Y, self.fmts):
self.axes[0].plot(x, y, fmt)
self.config_axes()
display.display(self.fig)
display.clear_output(wait=True)
# ------------------------------累加器------------------------------------
# 定义一个累加器
class Accumulator:
"""在n个变量上累加"""
# 这个累加器中保存了n个累加值
def __init__(self, n):
self.data = [0.0] * n
# 对着n个累加值同时进行累加,a代表原值,b代表增量,两者之和代表累加后的值
def add(self, *args):
self.data = [a + float(b) for a, b in zip(self.data, args)]
def reset(self):
self.data = [0.0] * len(self.data)
def __getitem__(self, idx):
return self.data[idx]
# ------------------------------下载fashion_mnist数据集------------------------------------
# 定义批量大小
batch_size = 256
# 下载fashion_mnist,并对数据集进行打乱和按批量大小进行切割的操作,得到可迭代的训练集和测试集(训练集和测试集的形式都为(特征数据集合,数字标签集合))
train_iter, test_iter = d2l.load_data_fashion_mnist(batch_size)
# ------------------------------定义网络模型,初始化权重参数------------------------------------
# 定义全连接层的输入特征个数为784个
num_inputs = 784
# 定义全连接层的输出类别为10个
num_outputs = 10
# 初始化权重矩阵W,元素值服从均值为0,方差为0.01的正态分布,权重规模为(10行,784列)
W = torch.normal(0, 0.01, size=(num_inputs, num_outputs), requires_grad=True)
# 初始化偏移量为0,偏移量规模为10行
b = torch.zeros(num_outputs, requires_grad=True)
# 定义softmax操作
def softmax(X):
X_exp = torch.exp(X) # 对X中的每个元素取指数
partition = X_exp.sum(1, keepdim=True) # 计算X_exp中每行之和
return X_exp / partition # 这里应用了广播机制 # 计算X_exp中每个元素占当前行之和的比例
# 定义网络模型
def net(X):
return softmax(torch.matmul(X.reshape((-1, W.shape[0])), W) + b)
# ------------------------------定义优化器------------------------------------
# 定义优化器:随机梯度下降优化算法
def updater(batch_size):
return d2l.sgd([W, b], lr, batch_size)
# ------------------------------定义损失函数------------------------------------
# # 两个样本的真实标签分别为0,2
# y = torch.tensor([0, 2])
# # 两个样本在每种类别上预测的概率
# y_hat = torch.tensor([[0.1, 0.3, 0.6], [0.3, 0.2, 0.5]])
# # 每个样本在真实标签上的预测概率
# # print(y_hat[[0, 1], y])
# # 输出:
# # tensor([0.1000, 0.5000])
# 定义交叉熵损失函数,返回每个样本的预测损失
# 公式为:-ln(样本1在真实标签上的预测概率)- ln(样本2在真实标签上的预测概率)-……
def cross_entropy(y_hat, y):
return - torch.log(y_hat[range(len(y_hat)), y])
# print(cross_entropy(y_hat, y))
# 输出:
# tensor([2.3026, 0.6931])
# ------------------------------统计一个批量样本中,标签预测正确的样本数------------------------------------
# 定义一个函数,计算预测正确的样本个数
def accuracy(y_hat, y):
"""计算预测正确的数量"""
if len(y_hat.shape) > 1 and y_hat.shape[1] > 1:
# y_hat为每个样本的预测标签
y_hat = y_hat.argmax(axis=1)
# cmp中保存了每个样本的预测结果,预测正确的为True,预测错误的为False
cmp = y_hat.type(y.dtype) == y
# 返回预测为True的样本个数
return float(cmp.type(y.dtype).sum())
# 计算预测的正确率
# print(accuracy(y_hat, y) / len(y))
# 输出:
# 0.5
# ------------------------------模型在整个训练集或测试集上的准确率------------------------------------
# net:定义的网络模型
# data_iter:打乱的并且根据批量大小切割好的训练集或测试集
# 计算网络模型在训练集或数据集上的预测准确率
def evaluate_accuracy(net, data_iter):
"""计算在指定数据集上模型的精度"""
if isinstance(net, torch.nn.Module):
net.eval() # 将模型设置为评估模式
# 定义一个累加器,累加器中保存着正确预测的样本个数和预测的总样本数
metric = Accumulator(2)
with torch.no_grad():
# 遍历整个训练集或测试集上的每个批量
for X, y in data_iter:
# 计算出一个批量中预测正确的样本数,以及本批量中所有样本的数量,并将其累加
metric.add(accuracy(net(X), y), y.numel())
# 返回该网络在训练集或数据集上的预测准确率
return metric[0] / metric[1]
# print(evaluate_accuracy(net, test_iter))
# 输出:
# 0.0977
# if __name__ == "__main__":
# print(evaluate_accuracy(net, test_iter))
# ------------------------------进行一轮训练------------------------------------
# net:定义的网络模型
# train_iter:打乱的并且根据批量大小切割好的训练集
# loss:定义的损失函数
# updater:定义的优化器
# 进行一轮训练,返回本轮训练之后的平均损失和平均准确率
def train_epoch_ch3(net, train_iter, loss, updater):
"""训练模型一个迭代周期(定义见第3章)"""
# 将模型设置为训练模式
if isinstance(net, torch.nn.Module): # 没有走这里
net.train()
# 定义一个累加器,用来累加一轮训练过程中的损失之和、一轮训练过程中预测正确的样本数之和、一轮训练中参与训练的样本总数
metric = Accumulator(3)
# 每次迭代一个批量的训练样本
for X, y in train_iter:
# 计算出本批量中每个样本的预测值
y_hat = net(X)
# 计算出本批量中每个样本的损失值
l = loss(y_hat, y)
# 使用优化器对权重和偏移量进行更新优化
if isinstance(updater, torch.optim.Optimizer):
# 使用PyTorch内置的优化器和损失函数
updater.zero_grad()
l.mean().backward()
updater.step()
else:
# 使用定制的优化器和损失函数
l.sum().backward()
updater(X.shape[0])
# 将损失之和、预测正确的样本数之和、样本总数进行累加
metric.add(float(l.sum()), accuracy(y_hat, y), y.numel())
# 返回本轮训练之后的平均损失和平均准确率
return metric[0] / metric[2], metric[1] / metric[2]
# ------------------------------完整训练过程------------------------------------
def train_ch3(net, train_iter, test_iter, loss, num_epochs, updater):
"""训练模型(定义见第3章)"""
# 定义一个动画来显示训练结果
animator = Animator(xlabel='epoch', xlim=[1, num_epochs], ylim=[0.3, 0.9],legend=['train loss', 'train acc', 'test acc'])
for epoch in range(num_epochs):
print("==========","epoch:",epoch,'==========')
# 进行一轮训练
train_metrics = train_epoch_ch3(net, train_iter, loss, updater)
# 进行一轮训练之后,得到新的模型参数,计算模型在测试集上的准确率
test_acc = evaluate_accuracy(net, test_iter)
# 更新图像
animator.add(epoch + 1, train_metrics + (test_acc,))
# 最后一次训练完成后,
train_loss, train_acc = train_metrics
# 如果训练损失大于等于0.5,报错并打印出训练损失
assert train_loss < 0.5, train_loss
# 如果训练准确率不在[0.7,1]之间,报错并打印出准确率
assert train_acc <= 1 and train_acc > 0.7, train_acc
# 如果测试准确率不在[0.7,1]之间,报错并打印出准确率
assert test_acc <= 1 and test_acc > 0.7, test_acc
# 定义学习率
lr = 0.1
# 定义训练轮数
num_epochs = 10
# 开始训练
train_ch3(net, train_iter, test_iter, cross_entropy, num_epochs, updater)
plt.savefig('OutPut.png')