对拜占庭攻击鲁棒的异分布数据分布学习的梯度更新方法RSA

主体内容

这篇文章主要是在说,当在distributed leanring存在Byzantine attack,即可以向中央服务器发送任何内容导致最终结果出现bias,以及各个client之间不满足同分布的假设下该如何进行学习。

文章的formula如下:

wBy9y9.png

作者把中央服务器的参数和每个客户的参数分隔开,最后通过x0=xi的约束来同一两者。但是上面这个式子是无法优化的,作者近似出下面的式子,

wBymSe.png

作者证明了当λ足够大的时候,上面两个式子的最优解是一样的。在优化的时候,对xix0分别进行优化,它们各自的更新公式如下:

wBgjB9.png

wBgv7R.png

作者这样设计的算法有下面这样的优势:

  1. 同样面对Byzantine attack,相比于计算geometric mean之类的aggregation method这样的更新方式更为简便
  2. 算法设计时考虑了异分布的情况,更贴合实际
  3. clientserver的参数不一定相同,client可以保留personal的参数

定理证明

Proposition 1

wBWEFI.png
这个命题是在说,一个p-normsubgradient集合等于另一个集合。

集合相等的证明需要证明两个集合中的元素都相同,或者证明两个集合相互包含。

wB5wgx.png

作者首先根据subgradient的定义证明了凡是属于{zRd:<z,x>=xp,zb1}的元素都属于xxp集合。

wBToqK.png

在证明xxp的元素都属于{zRd:<z,x>=xp,zb1}上,作者首先找到一个特殊的y=xpxz来得到xpzb=<z,x>。再通过对y进行特殊的赋值来得到zb=1。需要注意的是p-norm0处需要分开讨论。

Theroem 1

wBWfne.png
定理一是在说,当λ足够大的时候,两个formula得到的结果是一样的。

自己的想法:客户的目标函数都是convex的,加总得到的中央服务器的目标函数也是convex的,那么一定存在使得中央服务器最优的参数w,然后中央服务器w广播出去,每个client得到w。在我之前的理解下,如果client的数据是异分布的,那么他们有不同的行为习惯,那么应该得到不同的最后参数wk。例如,一个客户喜欢自行车上班,另一个客户喜欢公交车上班,那么在给两人推荐的路线就应该是不同的。但是按照上面的分析,每个client得到的最终参数是相同的。我在想异分布和个性化到底存在什么联系?

这个证明特别有意思,

wBLjD1.png

首先作者证明了EF(x~,ξi)λ0p,然后因为λ0p这个集合是对称的,就得到了(20),将所有的i汇总得到(21)。这个(21)的式子会利用第一个formula中的式子进行代换,

wBXPoV.png

然后就得到了0f0(x~)+iRλx~x~集合,那就证明[x~]是第二个formula的解。

其实这个定理不很直接易得的,第二个formula是第一个formula的slack版本,那么第一个都得到了那么第二个也是最优的。

Theorem 2

wBj96H.png

定理二涉及的就是最终收敛性的证明。终于到达最后的收敛性证明了,其实收敛性证明也是有规范可循的。

因为作者这里的x=[xi;x0],所以clientserver都需要证明一下啊但是基本上大同小异。

wBjvbn.png

先来看regular work的update rule,其中A项是我们想要保留的,剩下的BCD都要进行放缩,要用到假设的convexstrongly-convexbounded variance of gradient等假设来进行。

首先来看B项,因为涉及了EF(xik,ξik)2,首先不希望其中跟样本有关系然后我们假设的Bounded variance可以用到,

wBzp1U.png

得到这样之后,虽然跟E[F(xik,ξik)]与样本没有关系了但是形式上基本没有改变。仍然要分离E[F(xik,ξik)]λxixikx0kp,引入E[F(xi,ξik)]+λxixix0p=0得到

wBzIER.png

其中最后一个不等式用到了Proposition 1,即次梯度z满足zb1

再对C项进行放缩,在对这一项进行放缩时看形势可以用到L smooth或者μ strongly convex的假设,在进行缩放时,先进行拆分,变为

wDo2Mq.png

然后可以再利用[2]中p66中的定理,可以得到

wD7nHK.png

其中第二个不等式通过了对学习率α的限制得到。化简结果中第一项是我们要保留的,第二项是一个误差,第三项还需要进行再次处理。

现在转向server端的参数更新,证明方式大同小异,

wDLWLR.png

同样将更新规则带入整理得到四项,对于第二项和第三项,与regular worker不同,要将Byzantineclient去除掉,再利用同样的缩放技巧。对于第四项,则直接利用AM-GM inequality可以得到

wrV3GQ.png

server的式子缩放整理可以得到

wrVdaT.png

无论是client还是server最后的式子中都有一个\E<λiRxx0kxikpλiRxx0xi,xkx>的东西,作者证明了这个东西是大于0的,减去一个大于0的项直接进行舍弃就放大了。作者设计了如下函数,通过g(x)是凸函数证明了这件事情

wrmnq1.png

最终得到的结果就是下面这个样子

wrmDJS.png

作者在这里讨论了学习率\aplha是固定值还是跟随步数逐渐缩小的值,至于为什么学习率要减小呢,可以看看SVRG(Stochasitc Variance Reduce Gradient)[3]。如果是采用固定学习率的话,那么直接可以telescopic cancellation就可以得到,如果是随着步数变化的学习率的话(一般是αt+1这种形式),就需要通过数学归纳法来进行了。

文章最后说的1k函数值收敛好吧,根据convex和μ strongly convex一转化应该就OK了。

总结和心得

  1. 作者这样formula给个性化的参数提供了另一种思路,但是个性化和全局最优的w到底存在什么联系还需要进一步探究。
  2. 收敛性证明的格式基本如上所示,常用到AM-GMholder-inequalityab22a2+2b2,在证明中会用到学习率η的条件来消除某些不好处理的项。如果学习率是变动的那么则要使用归纳法。

参考文献

  1. RSA: Byzantine-Robust Stochastic Aggregation Methods for Distributed Learning from Heterogeneous Datasets
  1. Introductory Lectures on Convex Optimization A Basic Course
  1. Accelerating Stochastic Gradient Descent using Predictive Variance Reduction
posted @   Neo_DH  阅读(669)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列(二):开始使用ML.NET
· 记一次.NET内存居高不下排查解决与启示
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
阅读排行:
· DeepSeek 开源周回顾「GitHub 热点速览」
· 物流快递公司核心技术能力-地址解析分单基础技术分享
· .NET 10首个预览版发布:重大改进与新特性概览!
· AI与.NET技术实操系列(二):开始使用ML.NET
· .NET10 - 预览版1新功能体验(一)
点击右上角即可分享
微信分享提示