Symbolic Discovery of Optimization Algorithms

Chen X., Liang C., Huang D., Real E., Wang K., Liu Y., Pham H., Dong X., Luong T., Hsieh C., Lu Y. and Le Q. V. Symbolic discovery of optimization algorithms. NeurIPS, 2024.

本文搜索出了一个优雅的, 且经验上似乎更好的优化器: Lion.

Lion

  • 作者通过一些技巧, 搜索出了一个优雅的优化器, 和 Adam 的最大不同在于:

    1. 它仅需要维护一个 momentum (一阶);
    2. 更新的时候采用的是符号梯度更新.
  • 特别地,

    ctβ1mt1+(1β1)gt,

    这个保证了我们可以像 Adam 一样通过 β1 控制对当前梯度 gt 的一个倾向.

  • 作者认为, 符号梯度 sign(ct) 的一个优势就是能够保证模型整体的参数的大小是保持一致的, 所以泛化性更好. 实际上, 作者发现, 有些时候, Lion 最终的收敛的损失可能是比 AdamW 要高的, 但是最终在验证集上的实际精度却是要更高, 这一定程度上说明了猜想的合理性.

  • 在权重调节方面, 与 AdamW 稍有不同:

    1. (β1,β2) 的建议大小为 (0.9,0.99) 而不是和 AdamW 一样的 (0.9,0.999).
    2. Lion 学习率差不多为 AdamW 的学习率的 1/10~1/3 (既然采用的是符号梯度);
    3. Lion 所需要的 weight_decay 系数则要相应的乘上 3-10, 则是为了保持:

      lrλ

      不变.

代码

[official-code]

posted @   馒头and花卷  阅读(10)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2020-11-28 CoGAN
2020-11-28 EBGAN
点击右上角即可分享
微信分享提示