关于炼丹

lr_scheduler的选择

学习率在训练过程起到很重要的作用，这段时间里最常用的两个：

循环学习率调度器
循环学习率调度器主要基于一个基本的观点：将训练过程中的学习率从较低的初始值逐渐增加，然后再逐渐减小到较小的终止值。这个过程有助于模型更快地收敛，并且可以降低模型过拟合的风险。同时，通过在训练过程中循环地逐渐调整学习率，可以避免在过多迭代中学习率过小或者过大。

torch.optim.lr_scheduler.OneCycleLR(optimizer, max_lr=, steps_per_epoch=, epochs=)

指数衰减学习率调度器
指数衰减学习率调度器的工作方式很简单：在每个训练迭代中，它会根据一个事先指定的指数衰减率，对当前学习率进行乘法衰减。

torch.optim.lr_scheduler.ExponentialLR(optimizer, gamma=0.88, last_epoch=-1)

个人感觉：循环学习率调度器在训练收敛的过程更稳定一些
注意事项：OneCycleLR是每个step更新一次，代码要放在最里层，ExponentialLR是每个epoch更新一次，代码放在两个for循环之间

蒸馏模型

当模型落地应用，通常需要压测下模型的响应速度，这时候需要将大的模型蒸馏成较小的模型，实践中最常见的就是把Bert模型蒸馏成Bi-LSTM模型，降低参数量和提升响应速度。
蒸馏模型的过程就是teacher-student模式，先训练大模型（teacher)，然后利用大模型去教会小模型（student），蒸馏过程中，训练损失是由两部分组成：（1）大模型和小模型生成结果的差异（2）小模型生成结果与正确答案之间的差异

teacher_model.eval()
student_model.train()
distill_loss(output_t, output_s, labels)

def distill_loss(teacher_logits, student_logits, labels):
  hard_loss = F.cross_entropy(student_logits, labels)
  soft_loss = F.kl_div(F.log_softmax(student_logits/T, dim=1), 
                       nn.softmax(teacher_logits/T, reduction="batchmean"))
  return alpha*hard_loss + (1_alpha)*soft_loss*T*T

# 其中：T=temperature=5  alpha=0.1

posted @ 2023-08-18 18:27 嘎吱嘎吱脆阅读(9) 评论(0) 编辑收藏举报

刷新页面返回顶部

嘎吱嘎吱脆

关于炼丹

lr_scheduler的选择

蒸馏模型

公告