AdEMAMix: 一种创新的神经网络优化器

这是9月发布的一篇论文，Pagliardini等人在其论文中提出了一种新的优化算法——AdEMAMix。这种算法旨在解决当前广泛使用的Adam及其变体（如AdamW）在利用长期梯度信息方面的局限性。研究者们通过巧妙地结合两个不同衰减率的指数移动平均（EMA），设计出了这种新的优化器，以更有效地利用历史梯度信息。

研究动机

作者们指出，传统的动量优化器通常使用单一EMA来累积过去的梯度，这种方法面临一个两难困境：

较小的衰减率（β）会导致优化器对近期梯度给予较高权重，但快速遗忘旧梯度。
较大的衰减率可以保留更多旧梯度信息，但会减慢对近期梯度的响应。

研究者们发现，即使在数万步训练之后，梯度信息仍然可能保持有用。这一发现促使他们设计了AdEMAMix，以同时利用近期和远期的梯度信息。

AdEMAMix算法

核心思想

AdEMAMix的核心在于使用两个EMA项：

快速EMA（低β值）: m₁ = β₁m₁ + (1-β₁)g
慢速EMA（高β值）: m₂ = β₃m₂ + (1-β₃)g

其中g为当前梯度，β₁和β₃分别为快速和慢速EMA的衰减率。

参数更新规则

作者们给出了AdEMAMix的参数更新规则：

θ = θ - η((m̂₁ + αm₂) / (√v̂ + ε) + λθ)

其中θ为模型参数，η为学习率，α为权衡两个EMA项的系数，v̂为Adam中的二阶矩估计，λ为权重衰减系数。

https://avoid.overfit.cn/post/aec60154f99a42ab81274c7f7afe15f3

posted @ 2024-09-24 09:32 deephub 阅读(79) 评论(0) 收藏举报

刷新页面返回顶部

deephub

overfit深度学习

AdEMAMix: 一种创新的神经网络优化器

研究动机

AdEMAMix算法

核心思想

参数更新规则

公告