Datawhale X 李宏毅苹果书AI夏令营深度学习进阶(二)

一.动量法
在上一个博客中，我们提到了动量法，现在继续补充

如图所示，红色表示负梯度方向，蓝色虚线表示前一步的方向，蓝色实线表示真实的移动量。一开始没有前一次更新的方向，完全按照梯度给指示往右移动参数。负梯度方向跟前一步移动的方向加起来，得到往右走的方向。一般梯度下降走到一个局部最小值或鞍点时，就被困住了。但有动量还是有办法继续走下去，因为动量不是只看梯度，还看前一步的方向。即使梯度方向往左走，但如果前一步的影响力比梯度要大，球还是有可能继续往右走，甚至翻过一个小丘，也许可以走到更好的局部最小值，这就是动量有可能带来的好处。

二.自适应学习率
临界点其实不一定是在训练一个网络的时候会遇到的最大的障碍。一般在训练一个网络的时候，损失原来很大，随着参数不断的更新，损失会越来越小，最后就卡住了，损失不再下降。当我们走到临界点的时候，意味着梯度非常小，但损失不再下降的时候，梯度并没有真的变得很小。随着迭代次数增多，虽然损失不再下降，但是梯度的范数并没有真的变得很小。梯度在山谷的两个谷壁间，不断地来回“震荡”，这个时候损失不会再下降，它不是真的卡到了临界点，卡到了鞍点或局部最小值。但它的梯度仍然很大，只是损失不一定再减小了。所以训练一个网络，训练到后来发现损失不再下降的时候，有时候不是卡在局部最小值或鞍点，只是单纯的损失无法再下降。
假如训练一个网络，训练到现在参数在临界点附近，再根据特征值的正负号判断该临界点是鞍点还是局部最小值。实际上在训练的时候，要走到鞍点或局部最小值，是一件困难的事情。一般的梯度下降，其实是做不到的。用一般的梯度下降训练，往往会在梯度还很大的时候，损失就已经降了下去，这个是需要特别方法训练的。要走到一个临界点其实是比较困难的，多数时候训练在还没有走到临界点的时候就已经停止了。
最原始的梯度下降连简单的误差表面都做不好，因此需要更好的梯度下降的版本。在梯度下降里面，所有的参数都是设同样的学习率，这显然是不够的，应该要为每一个参数定制化学习率，即引入自适应学习率（adaptive learning rate）的方法，给每一个参数不同的学习率。
接下来介绍几个简单的相关概念：
AdaGrad
AdaGrad（Adaptive Gradient）是典型的自适应学习率方法，其能够根据梯度大小自动调整学习率。AdaGrad 可以做到梯度比较大的时候，学习率就减小，梯度比较小的时候，学习率就放大。
RMSProp
同一个参数需要的学习率，也会随着时间而改变。在某种误差表面中，如果考虑横轴方向，绿色箭头处坡度比较陡峭，需要较小的学习率，但是走到红色箭头处，坡度变得平坦了起来，需要较大的学习率。因此同一个参数的同个方向，学习率也是需要动态调整的，于是就有了一个新的方法———RMSprop（Root Mean Squared propagation）。
Adam
最常用的优化的策略或者优化器（optimizer）是Adam（Adaptive moment estimation）[7]。Adam 可以看作 RMSprop 加上动量，其使用动量作为参数更新方向，并且能够自适应调整学习率。PyTorch 里面已经写好了 Adam 优化器，这个优化器里面有一些超参数需要人为决定，但是往往用 PyTorch 预设的参数就足够好了。

三.学习率调度
之前的学习率调整方法中 η 是一个固定的值，而在学习率调度中 η 跟时间有关。学习率调度中最常见的策略是学习率衰减（learning rate decay），也称为学习率退火（learning rateannealing）。随着参数的不断更新，让 η 越来越小。除了学习率下降以外，还有另外一个经典的学习率调度的方式———预热。预热的方法是让学习率先变大后变小，至于变到多大、变大的速度、变小的速度是超参数。残差网络里面是有预热的，在残差网络里面，学习率先设置成 0.01，再设置成 0.1，特别的，一开始用 0.1 反而训练不好。除了残差网络，BERT 和 Transformer 的训练也都使用了预热，使用预热的原因是当我们使用 Adam、RMSprop 或 AdaGrad 时，需要计算 σ。而 σ 是一个统计的结果。从 σ 可知某一个方向的陡峭程度。统计的结果需要足够多的数据才精准，一开始统计结果 σ 是不精准的。一开始学习率比较小是用来探索收集一些有关误差表面的情报，先收集有关 σ 的统计数据，等 σ 统计得比较精准以后，再让学习率慢慢爬升。如果读者想要学更多有关预热的东西可参考 Adam 的进阶版———RAdam。

四.分类
(一)分类与回归的关系
回归是输入一个向量 x，输出 yˆ，我们希望 yˆ 跟某一个标签 y 越接近越好，y 是要学习的目标。而分类可当作回归来看，输入 x 后，输出仍然是一个标量 yˆ，要让它跟正确答案的那个类越接近越好。yˆ 是一个数字，我们可以把类也变成数字。如果有三个类，标签 y 就是一个三维的向量，如果目标 y 是一个向量，比如 y 是有三个元素的向量，网络也要输出三个数字才行。
(二)带有 softmax 的分类
分类实际过程是：输入 x，乘上 W，加上 b，通过激活函数 σ，乘上W′，再加上 b′ 得到向量 yˆ。但实际做分类的时候，往往会把 yˆ 通过 softmax 函数得到 y′，才去计算 y′ 跟 yˆ 之间的距离。
一般有两个类的时候，我们不套 softmax，而是直接取 sigmoid。当只有两个类的时候，sigmoid 和 softmax 是等价的。
(三)分类损失
当我们把 x 输入到一个网络里面产生 yˆ 后，通过 softmax 得到 y′，再去计算 y′ 跟 y 之间的距离 e。计算 y′ 跟 y 之间的距离不只一种做法，可以是均方误差，即把 y 里面每一个元素拿出来，计算它们的平方和当作误差。交叉熵更常用，当 yˆ 跟 y′ 相同时，可以最小化交叉熵的值，此时均方误差也是最小的。最小化交叉熵其实就是最大化似然（maximize likelihood).从优化的角度来说明相较于均方误差，交叉熵是被更常用在分类上。如图 3.35 所示，有一个三类的分类，网络先输出 y1、y2 和 y3，在通过 softmax 以后，产生 y′1、y′2 和 y′3。假设正确答案是 [1, 0, 0]T，要计算 [1, 0, 0]T 跟 y′1、y′2 和 y′3 之间的距离 e，e 可以是均方误差或交叉熵。假设 y1 的变化是从-10 到 10，y2 的变化也是从-10 到 10，y3 就固定设成-1000。因为 y3 的值很小，通过 softmax 以后，y′3 非常趋近于 0，它跟正确答案非常接近，且它对结果影响很少。
（四）批量归一化
如果误差表面很崎岖，它比较难训练。能不能直接改误差表面的地貌，“把山铲平”，让它变得比较好训练呢？批量归一化（Batch Normalization，BN）就是其中一个“把山铲平”的方法。

五.动手实践
(一)模型结构

(二)关键代码
`# 构建测试数据集

"loader"参数指定了torchvision如何读取数据

test_set = FoodDataset("./hw3_data/test", tfm=test_tfm)

创建测试数据加载器，批量大小为batch_size，不打乱数据顺序，不使用多线程，启用pin_memory以提高数据加载效率

test_loader = DataLoader(test_set, batch_size=batch_size, shuffle=False, num_workers=0, pin_memory=True)

实例化分类器模型，并将其转移到指定的设备上

model_best = Classifier().to(device)

加载模型的最优状态字典

model_best.load_state_dict(torch.load(f"{_exp_name}_best.ckpt"))

将模型设置为评估模式

model_best.eval()

初始化一个空列表，用于存储所有预测标签

prediction = []

使用torch.no_grad()上下文管理器，禁用梯度计算

with torch.no_grad():
# 遍历测试数据加载器
for data, _ in tqdm(test_loader):
# 将数据转移到指定设备上，并获得模型的预测结果
test_pred = model_best(data.to(device))
# 选择具有最高分数的类别作为预测标签
test_label = np.argmax(test_pred.cpu().data.numpy(), axis=1)
# 将预测标签添加到结果列表中
prediction += test_label.squeeze().tolist()

创建测试csv文件

def pad4(i):
"""
将输入数字i转换为长度为4的字符串，如果长度不足4，则在前面补0。
:param i: 需要转换的数字
:return: 补0后的字符串
"""
return "0" * (4 - len(str(i))) + str(i)

创建一个空的DataFrame对象

df = pd.DataFrame()

使用列表推导式生成Id列，列表长度等于测试集的长度

df["Id"] = [pad4(i) for i in range(len(test_set))]

将预测结果赋值给Category列

df["Category"] = prediction

将DataFrame对象保存为submission.csv文件，不保存索引

df.to_csv("submission.csv", index=False)`

(三)两个数据集的图像分析和分类结果分布图

posted @ 2024-08-30 08:46 W12w 阅读(43) 评论(0) 收藏举报

刷新页面返回顶部

CuckooAI