论文笔记(10)-"Closing the Gap: Tighter Analysis of Alternating Stochastic Gradient Methods for Bilevel Problems"

Introduction

文章作者针对Bilevel optimization提出了一种对需要采样样本更少的single timescale算法,收敛速度为O(1K)

Bilevel optimization问题的通常形式为

即对于一个嵌套的问题,上层级的问题求解需要子问题的最优解(通常的对偶问题都可以写成这样的形式,如y为对偶变量)。

上述问题的求解难点主要在于子问题y(x)的计算,一般很难得到解析解。

文章主要论题在于当我们用迭代的算法得到一个不精确的y时,如何更新x以及最终的收敛性、效率如何。

Main Idea

文章的两个主要想法为

  1. x的更新方式

    (1)F(x)=xf(x,y(x))xyg(x,y(x))[yyg(x,y(x))]1yf(x,y(x))

    推导过程如下:

    (2)F(x)=xf(x,y(x))xy(x)yf(x,y(x))

    对于xy(x)

    (3)yy(x)=0

    (4)x(yy(x))take the gradient w.r.t. x=0(5)xyy(x)+xy(x)yyy(x)=0(6)xyg(x,y(x))+xy(x)yyg(x,y(x))=0

    第一个等式是对yy(x)函数对x求梯度,要注意x(yy(x))xyy(x)的区别。最后得到

    (7)xy(x)=xyg(x,y(x))[yyg(x,y(x))]1

  2. y(x)是关于x的光滑函数,即

y(x1)y(x2)Lyx1x2

Algorithm

the update of y

通常y是没有解析解的,文中通过T次梯度下降得到在k时刻T次梯度下降后的结果yk,T来替代y(xk)

the update of x

将更新后的y代替y(x)带入???,得到

¯xf(x,y):=xf(x,y)xyg(x,y)[yyg(x,y)]1yf(x,y)

其中对于Hessen矩阵的逆,使用近似

[yyg(x,y)]1[Ng,1n=1N(I1g,1yyg(x,y;ϕ(n)))]

其中ϕ(n)是第n个样本点,N是全部N个样本中的一部分样本,g,1g(x,y)的Lipschitz continuity值。

这样整个算法流程为

其中

(8)hgk,t=yg(xk,yk,t;ϕk,t)(9)hfk=xf(x,yk+1;ξk)xyg(x,yk+1;ϕ(0))[Ng,1n=1N(I1g,1yyg(x,y;ϕ(n)))]yf(x,yk+1;ξ)

Convergence

Assumption

收敛性要求的条件有

  1. f,f,g,2g 分别是f,0,f,1,g,1,g,2Lipschitz continuity
  2. 对于任意固定的xg(x,y)对于yμgstrongly convex
  3. 随机梯度f(x,y;ξ)g(x,y;ϕ)和二阶导数2g(x,y;ϕ)均是无偏的,且方差有界,分别为σf2,σg,12,σg,22

Proof

Sketch

令Lyapunov function Vk:=F(xk)+LfLyyky(xk),则

Vk+1Vk=F(xk+1)F(xk)upper objective+LfLy(yk+1y(xk+1)y(xk)y(xk))convergence of y

上述的Lyapunov function可以写成两部分,需要证明两者都是下降的。

the convergence of the upper function

先证明F(xk+1)F(xk)是递减,利用xk+1=xkαkhfk得到

其中h¯fkhfk的期望,利用F(xk)h¯fk=F(xk)hfk+hfkh¯fk得到

可以看出F(xk+1)F(xk)是依赖于yk+1y(xk)的收敛情况的。

the convergence of the lower function

需要注意Lyapunov function中关于y的是yky(xk),而yk在算法中是通过xk1取得的,所以要通过x来解耦

yk+1y(xk+1)2=yk+1y(xk)2J1+y(xk+1)y(xk)2J2+2yk+1y(xk),y(xk)y(xk+1)J3

这样将原式分为3部分,其中第一部分J1是关于yk+1在给定xk后是否收敛到y(xk)J2则用到了y函数的光滑性。

关于J1这部分是很标准的证明过程

关于J2部分,这里直接使用光滑性质

对于J3再次利用y(x)的光滑性,用y(xk)y(xk+1)y(xk)T(xk+1xk)+y(xk)T(xk+1xk)来解耦,得到

对于J31得到

其中最后一个不等式用到了Yong's equality ab2γka2+b28γk

对于J32直接使用光滑性质得到

其中(h)不等式用到了1η2+12η。最终整合起来得到

Cases

Min-Max Problems

Min-Max常见于博弈论、优化等领域中,之前的Decomposition对偶与Proximal都可以归结为这类问题。对于一般的Min-Max问题,其g(x,y)=f(x,y),因此???yf(x,y(x))=0,故更新方式变为

(10)hgk,t=yf(xk,yk,t;ϕk,t)(11)hfk=xf(xk,yk+1;ξk)

Compositional Problems

Compositional Problems中通常会加入一个norm的正则项,如加入L1-norm的Lasso等问题。对于一般的Compositional problems问题,其g(x,y)=yh(x;ϕ)2f(x,y):=f(y),这样得到新的更新公式为

(12)hgk,t=ykh(xk;ϕk)(13)hfk=h(xk;ϕk)f(yk+1;ξk)

Summary

  1. 对于x更新公式中的xyg(x,y(x))[yyg(x,y(x))]1,我是将其用Newton Methods的方法去理解。
  2. 定义的Lyapunov function为upper objective加上一个Ry=yky(xk),需要注意的是norm中的y(xk)实际上是k+1的。
  3. 收敛性证明中F(x)的收敛性除了和x的迭代有关系,还和lower levely的迭代有关系的,需要验证lower level迭代中y也是收敛的。
  4. 这篇文章很有实践指导意义,例如为什么在Min-Max问题中使用Alternative methods即使不加那个xyg(x,y(x))[yyg(x,y(x))]1也能表现很好?
  5. 以及y(x)确实包含x更新方向的信息。
posted @   Neo_DH  阅读(187)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示