EE364b笔记

次梯度方法

  • 次梯度方法不一定会使损失函数下降

    与line search方法不同,次梯度方法步长的schedule都是事先确定,因此不一定会导致损失函数下降,因此在证明收敛的时候用到的是xt+1x的范数。

  • 次梯度的证明框架

    xt+1x2=xtαtgtx2=xtx22αtgt,xtx+αt2gt2xtx22αt(ftf)+αt2gt2=x0x22k=0tαk(fkf)+k=0tαk2gt2

  • 步长选择

    步长选择常用的方法有

    • 常数α
    • αk=αk0,常用的如1k
    • αk2αk=ak0,常用的如1k
  • 收敛分析

    根据次梯度的证明fbesttfR+αk2G2αk选取不同的步长,有不同的收敛结果但收敛速度都是O(1t)

    • 在常数的情况下,fbesttf之间有R2tα的误差
    • 在diminish的情况下,fbest会收敛到f
  • projected次梯度方法

    根据xt+1x2=Π(zt+1)x2zt+1x2,投影的次梯度方法不会影响收敛情况。

  • Mirror descent

    参看之前的博客

  • adaptive methods

    先看一下polyak's step,根据2αtftfxtx2xt+1x2+αt2gt2得到,当αt=f(xt)fgt2时取得最小值。

参考资料

posted @   Neo_DH  阅读(408)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期(2025年3.1-3.9)
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
点击右上角即可分享
微信分享提示