Convergence of Adam Under Relaxed Assumptions

Li H., Jadbabaie A. and Rakhlin A. Convergence of adam under relaxed assumptions. NeurIPS, 2023.

本文探讨了 Adam 再较弱的假设下的收敛性. 作者的证明思路非常有趣, 虽然条件看着还是有些不对劲.

符号说明

  • f(x), 非凸目标函数;
  • f(x,ξ), ξ 是一些随机 source, 可用于模拟训练过程中的随机因素 (如 mini-batch sampling);

  • 上述算法是 Adam 的完整流程, 需要注意的是, 这里的 β 在常规的实现中为 1β.

思路

  • 作者的证明思路是围绕:

    (1)f(xt+1)f(xt)how?η4Gf(xt)2+ηλϵt2,

    其中

    ϵt=m^tf(xt).

  • 倘若我们能够假设 fL-smooth 的, (1) 是可以容易证明的. 但是作者搞了一个 (L0, Lp)-smooth 这个局部 smooth 的条件 (更弱一点). 从而需要证明在这个条件下有着类似 L-smooth 的性质, 文中 Section 5 和 Appendix B 都在讨论这一点.

  • 有趣的是, 作者先假设 tτ 下所需性质成立, 然后再证明 τ=T+1 (通过反证法).

  • 有了 (1), 剩下的难点在于如何 bound 住 ϵt, 更准确地说, 是如何次线性地 bound 住:

    t=1Tϵt2.

    我们需要注意, 这里的难点在于:

    1. m^t 是通过 f(xt,ξt) 随机梯度得到的;
    2. 就是本身的误差积累如何能够保证次线性.
  • 作者用概率上的方法 (Azuma-Hoeffding inequality) 证明了:

  • 请注意我标黄的地方:

    1. 这是个概率上成立的结果;
    2. βT 不看 β 是线性增长的, 想要规避这一点需要保证 β 是一个很小的量. 事实上作者也这么做了.
  • 下面是主要的结果:

  • 感觉美中不足的点就是 β 的选择, 一定是一个非常非常小的值, 而且这个 β 取得小和常规的不一样, 是更倾向于平均的结果, 即相当于一般情况取个 0.999999 的感觉, 这个太不符合实际了. 而且 T 的这种取法也不妥当, 有点掩盖了真实的收敛速度.
posted @   馒头and花卷  阅读(7)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix
历史上的今天:
2020-01-13 Going Deeper with Convolutions (GoogLeNet)
点击右上角即可分享
微信分享提示