随机权值平均的原理解释
SWA 的工作原理。它只保存两个模型,而不是许多模型的集成:
第一个模型保存模型权值的平均值(WSWA)。在训练结束后,它将是用于预测的最终模型。
第二个模型(W)将穿过权值空间,基于周期性学习率规划探索权重空间。
SWA权重更新公式
在每个学习率周期的末尾,第二个模型的当前权重将用来更新第一个模型的权重(公式如上)。因此,在训练阶段,只需训练一个模型,并在内存中储存两个模型。预测时只需要平均模型,基于其进行预测将比之前描述的集成快很多,因为在那种集成中,你需要使用多个模型进行预测,最后再进行平均。
参考资料:https://blog.csdn.net/e01528/article/details/82354477
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步