EE364b笔记

次梯度方法

次梯度方法不一定会使损失函数下降

与line search方法不同，次梯度方法步长的schedule都是事先确定，因此不一定会导致损失函数下降，因此在证明收敛的时候用到的是 $x^{t + 1} - x^{*}$ 的范数。
次梯度的证明框架

$\begin{aligned} ‖ x^{t + 1} - x^{*} ‖^{2} & = ‖ x^{t} - α_{t} g_{t} - x^{*} ‖^{2} \\ = ‖ x^{t} - x^{*} ‖^{2} - 2 α_{t} ⟨ g_{t}, x^{t} - x^{*} ⟩ + α_{t}^{2} ‖ g_{t} ‖^{2} \\ \leq ‖ x^{t} - x^{*} ‖^{2} - 2 α_{t} (f_{t} - f_{*}) + α_{t}^{2} ‖ g_{t} ‖^{2} \\ = ‖ x^{0} - x^{*} ‖^{2} - 2 \sum_{k = 0}^{t} α_{k} (f_{k} - f_{*}) + \sum_{k = 0}^{t} α_{k}^{2} ‖ g_{t} ‖^{2} \end{aligned}$
步长选择

步长选择常用的方法有
- 常数 $α$
- $\sum α_{k} = \infty$ ， $α_{k} \to 0$ ，常用的如 $\frac{1}{\sqrt{k}}$
- $\sum α_{k}^{2} \leq \infty$ ， $\sum α_{k} = \infty$ ， $a_{k} \to 0$ ，常用的如 $\frac{1}{k}$
收敛分析

根据次梯度的证明 $f_{b e s t}^{t} - f_{*} \leq \frac{R + \sum α_{k}^{2} G}{\sum 2 α_{k}}$ 选取不同的步长，有不同的收敛结果但收敛速度都是 $O (\frac{1}{\sqrt{t}})$
- 在常数的情况下， $f_{b e s t}^{t}$ 和 $f_{*}$ 之间有 $\frac{R}{2 t α}$ 的误差
- 在diminish的情况下， $f_{b e s t}^{*}$ 会收敛到 $f_{*}$
projected次梯度方法

根据 $‖ x^{t + 1} - x^{*} ‖^{2} = ‖ Π (z^{t + 1}) - x^{*} ‖^{2} \leq ‖ z^{t + 1} - x^{*} ‖^{2}$ ，投影的次梯度方法不会影响收敛情况。
Mirror descent

参看之前的博客
adaptive methods

先看一下polyak's step，根据 $2 α_{t} f^{t} - f_{*} \leq ‖ x^{t} - x^{*} ‖^{2} - ‖ x^{t + 1} - x^{*} ‖^{2} + α_{t}^{2} ‖ g_{t} ‖^{2}$ 得到，当 $α_{t} = \frac{f (x^{t}) - f_{*}}{‖ g_{t} ‖^{2}}$ 时取得最小值。

参考资料

EE364b

posted @ 2021-02-06 22:30 Neo_DH 阅读(408) 评论(0) 编辑收藏举报

刷新页面返回顶部

登录后才能查看或发表评论，立即登录或者逛逛博客园首页

【推荐】还在用 ECharts 开发大屏？试试这款永久免费的开源 BI 工具！
【推荐】国内首个AI IDE，深度理解中文开发场景，立即下载体验Trae
【推荐】编程新体验，更懂你的AI，立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包，你的智能百科全书，全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell：AI 加持，快人一步

编辑推荐：
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列：向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列：如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践

阅读排行：
· TypeScript + Deepseek 打造卜卦网站：技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· C#/.NET/.NET Core技术前沿周刊 | 第 29 期（2025年3.1-3.9）
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异

公告

昵称： Neo_DH
园龄： 7年1个月
粉丝： 22
关注： 18

<

2025年3月

>

日

一

二

三

四

五

六

23

24

25

26

27

28

1

2

3

4

5

6

7

8

9

10

11

12

13

14

15

16

17

18

19

20

21

22

23

24

25

26

27

28

29

30

31

1

2

3

4

5

最新随笔

随笔档案

阅读排行榜

评论排行榜

推荐排行榜

最新评论

1. Re:Tensorflow Federated(TFF)框架整理（上）
@Neo_DH 好的好的，感谢博主😊
--MoneYaaa
2. Re:Tensorflow Federated(TFF)框架整理（上）
@MoneYaaa 是的，这里tff只是需要一个模型，之后的训练是有按他自己方式做的。然后callback函数是用在训练、评估的时候，所以keras的肯定是不能用的tff里的。具体tff的有没有提供类...
--Neo_DH
3. Re:Tensorflow Federated(TFF)框架整理（上）
博主你好，我看了你写的文章后大有收获。但我有一个问题，当我用keras转换器的方法写模型时，能否在训练的时候加回调函数？（比如早停）我看了关于keras回调函数的使用，基本都是写在modle.fit（...
--MoneYaaa
4. Re:三种联邦学习的个性化方法及应用
@Neo_DH 感谢！...
--UMR-cc
5. Re:三种联邦学习的个性化方法及应用
@UMR-cc 文章中没有说q，group的数量怎么得到。就像KMeans一样，可能不知道潜在应该分多少类，可以通过eblow rule一样得到，也可以像谱聚类一样，设定阈值(cluster fede...
--Neo_DH