优化整理

函数g的一些性质

  • Lipschitz continuity

    θ2Dg(θ)2B

  • Smoothness

    g(θ1)g(θ1)2Lθ1θ22

  • Strong convexity

    g(θ1)g(θ2)+g(θ1)T(θ2θ1)+μ2θ1θ22

Smoothness函数的性质

光滑凸函数的性质

  • 如果g是二阶可微的,则

    g(θ)L

  • 二阶上界

    g(θ1)g(θ2)+g(θ2)(θ1θ2)+L2θ1θ2

    可以直接通过上述的g(θ)L导出

  • 下界

    g(θ1)g(θ2)+g(θ2)(θ1θ2)+L2θ1θ2

    h(θ)=g(θ)θTg(θ2)h(θ)为凸函数且在θ2取得最小值,h(θ)h(θ1Lg(θ)),将进行泰勒展开可以得到结果。

  • co-coercivity

    1Lg(θ)g(η)22[g(θ)g(η)]T(θη)

  • 到最优点的距离

    g(θ)g(θ)g(θ)T(θθ)

  • 如果gμ 强凸的,那么

    g(θ)g(η)+g(η)(θη)+12μg(θ)g(η)

    同样,令h(θ)=g(θ)θTg(η)并利用强凸的定义即可。

  • 如果gμ强凸,那么到最优点的距离

    g(θ)g(θ)12μg(θ)2

光滑函数梯度下降

令光滑函数梯度下降的迭代过程为θt=θt11Lg(θt1)

  • 如果gμ强凸的,那么

    g(θt)g(θ)(1μ/L)t[g(θ0)g(θ)]

    即,梯度下降算法是1μ/L线性收敛的。

    image-20200601102009614

    最后使用g(θ)g(θ)22μ(g(θ)g(θ))

  • 如果g仅仅是Lsmooth的,那么

    g(θt)g(θ)2Lθ0θt+4

    θt的迭代过程带入,并利用cocoercivity

    QkHbj.png

    利用凸函数的性质和柯西施瓦茨不等式可以得到

    g(θt1)g(θ)g(θt1)(θt1θ)g(θt1)θt1θ

    同时利用上一步的结果g(θt)g(θt1)12Lg(θt1)2

    QkgFM.png

    定义

    QkrV3.png

    Qk3zS.png

    倒数第二步骤,从1t的加和,两边都是加上前一步结果后,左式的1Δk1被消除,因此就等于最后的结果。

加速梯度下降

对于Lsmooth函数g,以及下述优化流程

θt=ηt11Lg(ηt1)ηt=θt+t1t+2(θtθt1)

则会有g(θt)g(θ)2Lθ0θ2(t+1)2

如果g还是一个μ强凸函数,那么下属流程

θt=ηt11Lg(ηt1)ηt=θt+1μ/L1+μ/L(θtθt1)

则会有g(θt)g(θ)Lθ0θ2(11μ/L)t

文章说的ten-line proof并没看懂...

Proximal gradient descent

Proximal gradient descent针对的是

minxg(x)+h(x)

其中g(x)Lipschitz连续,h(x)是凸函数不一定可微分。

其要找到一个z使得

minzxz2+h(z)

推导过程为,假设除去h(x)按照正常的梯度下降方法,

x+=x1Lg(x)

对其在x点进行二阶展开

x+=argminzg(x)+g(x)T(zx)+12Lzx2+h(z)=argminz12Lz(xLg(x))2+h(z)

最后一个等式去除了一些无关的常数项,因此最后一行其实是原式子的上界,通过对其上界进行优化从而实现其下降。

求解过程如下

QFU1D.png

加入没有g(x)这一项,对g(x)进行求导,可以得到

x(t+1)=x(t)1Lf(x(t))

继而可以得到f(x(t))=Lx(t)x(t+1)),为了表示方便,令γ=1L,同时设Gγ=1γ(xx(t+1))。现在证明Gγ=0g(x)+h(x)

因为x(t+1)=argminz{12γz(x(t)γg(x(t)))+h(z)},上式对z求导即可得到结果

这个结果进一步说明了Proximal Gradient Descent与通常的梯度下降间的联系。

f(x)=g(x)+h(x)证明:

f(y)f(x(t+1))+<Gγ(x),yx>+α2yx2+γ(1βγ2)Gγ(x)2

x(t+1)=xγGγ(x)代入f(x)得到

f(x(t+1))=g(xγGγ(x))+h(xt+1)g(x)γ<g(x),Gγ(x)>+βγ2Gγ(x)2g(y)+<g(x),xy>α2xy2γ<g(x),Gγ(x)>+βγ2Gγ(x)2=g(y)+<g(x),xyγGγ(x)>α2xy2+βγ2Gγ(x)2

参考文献

posted @   Neo_DH  阅读(346)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
点击右上角即可分享
微信分享提示