摘要: 在训练模型时,我们经常会使用两个神经网络模型进行融合,若两个模型的复杂度不同,或者激活函数不同,导致训练后的模型训练损失忽高忽低,差距巨大,有可能是陷入了`局部最优`的状况。这时候采用`分层学习率`的策略可能帮助模型度过局部最优困境。 下面是一个简单的示例: 对于一个继承于`nn.Module`的神 阅读全文
posted @ 2023-05-27 21:44 woxin_lab 阅读(283) 评论(0) 推荐(0) 编辑