论文笔记11 - "Linear Convergence in Federated Learning: Tackling Client Heterogeneity and Sparse Gradients"

内容总结全在摘要里,下面是一些证明

Deterministic

上面这个式子只要求了f函数L-smooth。

对于

xi,x¯t2

可以看作对多步gradient的norm。在convex和strongly convex的条件下可以得到

xi,x¯tηf(xt)2

这里引入的SVRG优势就凸显出来了,可以分离出f(xt)而不是fi(xi,1)

Strongly convex

代入可以得到

这里确定f(x¯t+1)f(x¯t)之间的下降上界,然后根据strongly convex的性质,

f(x¯t)22μ(f(x¯t)f(x))

得到

f(x¯t+1)f(x)(116κ)(f(x¯t)f(x))

convex

对于convex场景,我们有

代入xt,x¯t2

Nonconvex

对于nonconvex场景,需要重新确定xi,x¯t2

代入即可得

Stochastic

相对于随机的场景,要多出因为随机采样而导致的误差项。

Strongly-convex

summary

  • 个人认为,他讨论的infrequence communication没啥意义,因为他的学习率是关于H的函数,H变大学习率就减小,它们俩的乘积是固定的。
  • 证明过程还是很清晰简洁的
posted @   Neo_DH  阅读(107)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
历史上的今天:
2020-05-28 联邦学习FedAvg记录
点击右上角即可分享
微信分享提示