The Non-IID Data Quagmire of Decentralized Machine Learning阅读笔记
简介
机器学习算法需要的数据往往会在不同的设备上产生,并且将数据集中起来是非常困难的,因此,分布式计算就成为了一种可行性方案。但分布式的计算学习会出现各种各样的问题,如下:
困难
- 分布式训练会导致不同设备训练出来的模型具有不同的分布特性,例如小明喜欢猫,小红喜欢狗,若进行图片分类,小明的模型对识别猫的效果非常好,但识别狗的效果并不好。
- 分布式训练的不同训练设备之间会进行频繁的通信,而通信时间对性能的影响十分严重
作者对以上的问题进行的非常细致的研究,并提出了他们在实验过程中的一些发现。
实验发现
-
Label distribution skew很常见
Label distribution skew:不同客户端的分布不同,分布相同,即标签分布不同,而当给定时,对应的特征大概率都是.
以MNIST数据集为例,Client1中含有90%的数字1图片,其余10%随机;Client2中含有90%的数字7图片,其余10%随机;即标签分布不同。而当给定识别结果7时,对应的特征大概率都是7的特征.
-
Label distribution skew对Depp Neural Network的影响十分严重
-
数据the degree of skew对模型的影响十分严重,是一个决定性因素
解决方案:SkewScout
作者根据以上的困难与实验发现,提出了一种解决方案:SkewScout,SkewScout能够:
- 调整通信频率来调整模型的精度损失
- 通过Group Normalization来有效提高准确率
SkewScout
Overview of SkewScout
作者将SkewScout设计为一个通用模块,可以与不同的分散学习算法、ML训练框架和ML应用程序无缝集成
SkewScout通过三个模块来实现两个效果,最后达到目的:
- Estimating the degree of skew. 在简介的实验发现中提到,the degree of skew对模型的影响十分严重,是一个决定性的因素。因此,为了知道这个信息,SkewScout周期性地通过Model Traveling将模型从一个客户端发送到另一个客户端中测试准确度accuracy. 由于我们已经知道该模型在其原始数据分区中的训练精度accuracy,我们可以推断在远程数据分区中的精度损失accuracy loss
- Adaptive communication control. 根据已经估计到的精度损失accuracy loss,SkewScout动态的调整通信的次数,从而保证模型的质量。SkewScout将其看作一个最优化问题,该优化问题旨在最小化数据分区之间的通信,同时将精度损失保持在合理的阈值内。
Details of SkewScout
Accuracy Loss
数据分区之间的Accuracy Loss代表了模型之间的差异。作者用[Gaia](Gaia Geo-Distributed Machine Learning Approaching LAN Speeds阅读笔记 - Aegsteh - 博客园 (cnblogs.com))研究了IID分布和Non-IID分布下,超参数选择为=2%、5%、10%、20%时的Accuracy Loss. 作者发现,从IID分布(Accuracy Loss平均0.4%)到Non-IID设置分布(Accuracy Loss平均39.6%),Accuracy Loss急剧变化,而在Non-IID设置下,低阈值的准确度损失较小。
Communication Control
Communication Control的目标是保持模型质量,同时最小化数据分区之间的通信。SkewScout通过解决一个优化问题来实现这一点,该问题旨在最小化通信,同时将精度损失保持在一个小阈值以下,以便控制Non-IID数据分区导致的模型差异。Model Traveling估计精度损失后,SkewScout周期性地解决这个优化问题。目标函数:
是参数为的精度损失,是参数为时的通信次数,时整个模型的通信费用,是超参数.
思考
优点:
- 通过Accuracy Loss量化了模型之间的差异性
- 通过平衡通信次数来保证模型质量,即保持了模型质量,又减小了通信所需要的时间
缺点:
- 只研究了Non-IID之中的Label Skew,对其他类型没有进行研究
- Model Traveling之间可采用梯度压缩进行进一步尝试
一些问题:
- 通信次数为什么可以保证模型的质量
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Manus重磅发布:全球首款通用AI代理技术深度解析与实战指南
· 被坑几百块钱后,我竟然真的恢复了删除的微信聊天记录!
· 没有Manus邀请码?试试免邀请码的MGX或者开源的OpenManus吧
· 园子的第一款AI主题卫衣上架——"HELLO! HOW CAN I ASSIST YOU TODAY
· 【自荐】一款简洁、开源的在线白板工具 Drawnix