胡思乱想(1) - The Mechanism of SVRG

The mechanism of SVRG

首先回顾一下,在strongly convex和L-smooth条件下,我们是可以去得到线性收敛的收敛速度,也就是O(log(1ϵ))(这里省去了条件数κ)。而在随机梯度下降的条件下,我们取得的收敛速度是次线性收敛速度,也就是O(1ϵ)

相比于确定性deterministic算法来说,随机性stochastic算法得到的梯度在期望上是一致的,但是样本选取的随机性为收敛的上界引入了方差(一般来说我们会假设这个方差上界是固定的)。为了解决引入的方差(固定值),我们通过让学习率/步长η=O(1/t)以保证收敛。

SVRG的机制在于,在保证期望相同的同时,使得方差不再是一个固定的值,而是随着目标函数值的更新而逐渐下降的。具体而言

X9YZFI.png

vt是用来更新/搜索的方向,根据方差的公式Var(x)=E[x2]E[x]2,可以看到方差的第一项是跟损失函数Pt1相关的,如果损失函数是下降的话,那么对应的方差也是下降的。

posted @   Neo_DH  阅读(117)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示