论文笔记(10)-"Closing the Gap: Tighter Analysis of Alternating Stochastic Gradient Methods for Bilevel Problems"
Introduction
文章作者针对Bilevel optimization
提出了一种对需要采样样本更少的single timescale
算法,收敛速度为
Bilevel optimization
问题的通常形式为

即对于一个嵌套的问题,上层级的问题求解需要子问题的最优解(通常的对偶问题都可以写成这样的形式,如
上述问题的求解难点主要在于子问题
文章主要论题在于当我们用迭代的算法得到一个不精确的
Main Idea
文章的两个主要想法为
-
的更新方式推导过程如下:
对于
,则
第一个等式是对
函数对 求梯度,要注意 和 的区别。最后得到 -
是关于 的光滑函数,即
Algorithm
the update of
通常
the update of
将更新后的
其中对于Hessen矩阵的逆,使用近似
其中
这样整个算法流程为

其中
Convergence
Assumption
收敛性要求的条件有
分别是 Lipschitz continuity- 对于任意固定的
, 对于 是 strongly convex - 随机梯度
, 和二阶导数 均是无偏的,且方差有界,分别为
Proof
Sketch
令Lyapunov function
上述的Lyapunov function可以写成两部分,需要证明两者都是下降的。
the convergence of the upper function
先证明

其中

可以看出
the convergence of the lower function
需要注意Lyapunov function中关于
这样将原式分为3部分,其中第一部分
关于

关于

对于

对于

其中最后一个不等式用到了Yong's equality
对于

其中

Cases
Min-Max Problems
Min-Max
常见于博弈论、优化等领域中,之前的Decomposition,对偶与Proximal都可以归结为这类问题。对于一般的Min-Max
问题,其
Compositional Problems
在Compositional Problems
中通常会加入一个norm的正则项,如加入Lasso
等问题。对于一般的Compositional problems
问题,其
Summary
- 对于
更新公式中的 ,我是将其用Newton Methods
的方法去理解。 - 定义的Lyapunov function为upper objective加上一个
,需要注意的是norm中的 实际上是 的。 - 收敛性证明中
的收敛性除了和 的迭代有关系,还和lower level
中 的迭代有关系的,需要验证lower level
迭代中 也是收敛的。 - 这篇文章很有实践指导意义,例如为什么在
Min-Max
问题中使用Alternative methods即使不加那个 也能表现很好? - 以及
确实包含 更新方向的信息。
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)