Federated Learning: Challenges, Methods, and Future Directions

郑重声明:原文参见标题,如有侵权,请联系作者,将会撤销发布!

arXiv:1908.07873v1 [cs.LG] 21 Aug 2019

Abstract

  联邦学习包括通过远程设备或孤立的数据中心(如移动电话或医院)训练统计模型,同时保持数据本地化。在异构和潜在的大规模网络中进行训练带来了新的挑战,这些挑战的要求从根本上偏离了大规模机器学习、分布式优化和隐私保护数据分析的标准方法。在这篇文章中,我们讨论了联邦学习的独特特点和挑战,对当前的方法进行了广泛的概述,并概述了与广泛的研究界相关的未来工作的几个方向。

 

1 Introduction

  移动电话、可穿戴设备和自动驾驶车辆只是现代分布式网络中的一小部分,它们每天都会产生大量的数据。由于这些设备的计算能力不断增强,再加上对传输私有信息的关注,在本地存储数据并将网络计算推向边缘变得越来越有吸引力。

  边缘计算并不是一个新概念。事实上,在分布式、低功耗设备上计算简单查询是一个长达数十年的研究领域,在传感器网络查询处理、边缘计算和雾计算等领域都进行了探索[12,29,40,49,74]。最近的研究还集中考虑了机器学习模型的训练,但在本地提供和存储它们;例如,这是移动用户建模和个性化的常见方法[60,90]。

  然而,随着分布式网络中设备的存储和计算能力的增长,有可能在每个设备上利用增强的本地资源。这使得人们对联邦学习越来越感兴趣[75],它直接在远程设备上探索训练统计模型[注1:在本文中,我们使用术语“设备”来描述网络中的实体,如节点、客户机、传感器或组织]。正如我们在本文中所讨论的,在这样的环境中学习与传统的分布式环境有着显著的不同——要求在隐私、大规模机器学习和分布式优化等领域取得根本性的进步,并在不同领域的交叉点提出了新的问题,如机器学习和系统[91]。

  主要服务提供商已经部署了联邦学习方法[11,124],并且在支持隐私敏感应用方面发挥了关键作用,其中训练数据分布在边缘[例如,5,46,51,89,105,127,139]。潜在应用的例子包括:学习情绪、语义位置或移动电话用户的活动;适应自动车辆中的行人行为;预测可穿戴设备的心脏病发作风险等健康事件[6,52,84]。我们在下面讨论联邦学习的几个典型应用:

  • 智能手机:通过在大量移动电话中联邦学习用户行为,统计模型可以为诸如下一个单词预测、人脸检测和语音识别等应用提供动力[46,89]。然而,用户可能不愿意为了保护个人隐私或节省手机有限的带宽/电池电量而共享数据。联邦学习有可能在智能手机上实现预测功能,而不会降低用户体验或泄露私人信息。图1描述了一个这样的应用程序,在这个应用程序中,我们的目标是基于用户的历史文本数据来学习大型移动电话网络中的下一个单词预测器[46]。
  • 组织:在联邦学习的背景下,组织或机构也可以被视为“设备”。例如,医院是包含大量患者数据的组织,用于预测医疗保健。然而,医院在严格的隐私措施下运营,可能会面临法律、行政或道德约束,这些约束要求数据保持本地。联邦学习对于这些应用来说是一个很有前途的解决方案[52],因为它可以减少网络上的压力,并支持各种设备/组织之间的私有学习。
  • 物联网:现代物联网,如可穿戴设备、自主车辆或智慧家庭,可能包含许多传感器,使他们能够收集、反应和适应实时输入的数据。例如,一组自主车辆可能需要最新的交通、建筑或行人行为模型才能安全运行。然而,由于数据的私密性和每个设备的有限连接,在这些场景中构建聚合模型可能很困难。联邦学习方法有助于训练模型,使其能够有效地适应这些系统中的变化,同时保持用户隐私[84,98]。

 

1.1 Problem Formulation

  典型的联邦学习问题涉及到从存储在数千万到潜在的数百万远程设备上的数据学习单个全局统计模型。我们的目标是在设备生成的数据被本地存储和处理的约束下学习这个模型,而只有中间更新周期性地与中央服务器进行通信。特别是,目标通常是最小化以下目标函数:

 

1.2 Core Challenges

  接下来,我们将描述与解决(1)中提出的分布式优化问题相关的四个核心挑战。这些挑战使得联邦设置不同于其他经典问题,例如数据中心设置中的分布式学习或传统的私有数据分析。

挑战1:昂贵的沟通。在联邦网络中,通信是一个关键的瓶颈,再加上发送原始数据的隐私问题,使得在每个设备上生成的数据必须保持本地。事实上,联邦网络可能由大量设备组成,例如数百万部智能手机,网络中的通信速度可能比本地计算慢很多个数量级[50,115]。为了使模型与联邦网络中的设备生成的数据相匹配,因此有必要开发通信效率高的方法,作为训练过程的一部分,迭代地发送小消息或模型更新,而不是通过网络发送整个数据集。为了在这种情况下进一步减少通信,需要考虑的两个关键方面是:(i)减少通信回合的总数,或(ii)在每一回合减少发送的消息大小。

 

挑战2:系统异构性。由于硬件(CPU,内存)、网络连接(3G,4G,5G,wifi)和电源(电池电量)的变化,联邦网络中每个设备的存储、计算和通信能力可能不同。此外,每个设备上的网络大小和系统相关限制导致同时活跃的设备通常仅占一小部分,例如,一百万个设备网络中的数百个活跃设备[11]。每个设备也可能不可靠,并且由于连接性或能量限制,活跃设备在给定迭代中随机失活的情况并不少见。这些系统级特性极大地加剧了诸如掉队者缓解和容错等挑战。因此,开发和分析的联邦学习方法必须:(i) 预计参与人数较少,(ii) 容忍异构硬件,以及(iii) 对网络中的已下线设备具有鲁棒性。

 

挑战3:统计异质性。设备经常以non-IID的方式在网络上生成和收集数据,例如,移动电话用户在下一个单词预测任务的上下文中使用了不同的语言。此外,跨设备的数据点的数量可能有很大的变化,并且可能存在捕获设备之间的关系及其相关分布的底层结构。这种数据生成范例违反了分布式优化中经常使用的独立同分布(I.I.D)假设,增加了掉队者的可能性,并且可能在建模、分析和评估方面增加复杂性。事实上,虽然(1)的规范联邦学习问题旨在学习一个单一的全局模型,但是存在其他选择,例如同时通过多任务学习框架学习不同的局部模型[参见106]。在这方面,联邦学习和元学习的主要方法之间也有密切的联系[64]。多任务和元学习视角都支持个性化或特定于设备的建模,这通常是处理数据统计异质性的更自然的方法。

 

挑战4:隐私问题。最后,在联邦学习应用程序中,隐私通常是一个主要的关注点。联邦学习通过共享模型更新(例如梯度信息)而不是原始数据,朝着保护在每个设备上生成的数据迈出了一步[17,31,33]。然而,在整个训练过程中进行模型更新的通信仍然可以向第三方或中央服务器显示敏感信息[76]。虽然最近的方法旨在使用安全多方计算或差异隐私等工具增强联邦学习的隐私性,但这些方法通常以降低模型性能或系统效率为代价提供隐私。在理论和经验上理解和平衡这些权衡是实现私有联邦学习系统的一个相当大的挑战。

  本文的其余部分组织如下。在第二节中,我们将介绍以前和现在的工作,这些工作旨在解决联邦学习中讨论的四个挑战。在第三节中,我们概述了未来研究的几个有希望的方向。

 

2 Survey of Related and Current Work

  联邦学习的挑战乍一看像是隐私、大规模机器学习和分布式优化等领域的经典问题。例如,已经提出了许多方法来解决机器学习、优化和信号处理领域中昂贵的通信问题。然而,这些方法通常无法完全处理联邦网络的规模,更不用说系统和统计异构性的挑战了。类似地,虽然隐私是许多机器学习应用程序的一个重要方面,但是由于数据的统计变化,联邦学习的隐私保护方法很难严格断言,而且,由于每个设备上的系统限制以及跨越潜在的巨大网络,实现起来可能更加困难。在本节中,我们将更详细地探讨第一节中提出的挑战,包括对经典结果的讨论,以及最近专门针对联邦学习的工作。

 

2.1 Communication-efficiency

  在开发联邦网络的方法时,通信是一个需要考虑的关键瓶颈。虽然对通信效率高的分布式学习方法提供一个独立的综述超出了本文的范围,但是我们指出了几个一般的方向,我们将其分为(1)局部更新方法,(2)压缩方案和(3)去中心化训练。

 

2.1.1 Local Updating

  小批量优化方法,包括扩展经典随机方法来同时处理多个数据点,已经成为数据中心环境中分布式机器学习的一个流行范例[28,88,96,102,103]。然而,在实践中,它们被证明具有有限的灵活性,以适应最大限度地利用分布式数据处理的通信计算折衷[107,108]。作为响应,已经提出了几种最近的方法,通过允许在每轮通信上并行地在每台机器上应用可变数量的局部更新来提高分布式设置中的通信效率,使得计算量与通信量基本上更为灵活。对于凸目标,分布式局部更新原始对偶方法已经成为解决这类问题的一种常用方法[54,62,72,107,128]。这些方法利用对偶结构,有效地将全局目标分解成子问题,并在每一轮通信中并行求解。还提出了几种分布式局部更新原始方法,这些方法的附加优点是适用于非凸目标[93,136]。在实际应用中,这些方法大大提高了性能,并且在实际数据中心环境中,与传统的小批量方法或分布式方法(如ADMM[14])相比,它们的速度提高了一个数量级。我们在图2中直观地说明了局部更新方法。

  在联邦设置中,允许灵活的局部更新和低客户端参与的优化方法已经成为事实上的求解器[65, 75, 106]。联邦学习最常用的方法是联邦平均(FedAvg)[75],这是一种基于局部随机梯度下降(SGD)平均更新的方法。FedAvg在经验上表现得很好,特别是在非凸问题上,但它没有收敛性保证,并且在实际情况下,当数据是异构的时,它可能会发散[65]。我们在第2.3.2节中更详细地讨论了处理这种统计异质性的方法。

 

2.1.2 Compression Schemes

  虽然局部更新方法可以减少通信的总轮数,但模型压缩方案(如稀疏化、子采样和量化)可以显著减少每轮通信的消息大小。在数据中心环境下的分布式训练的以往文献中,这些方法在经验和理论上都得到了广泛的研究;我们将读者推荐到[119,135]进行更全面的回顾。在联邦环境中,设备的低参与度、非独立同分布的局部数据和局部更新方案对这些模型压缩方法提出了新的挑战。例如,经典分布式学习[101]中常用的错误补偿技术不能直接扩展到联邦设置,因为如果不经常对设备进行采样,局部累积的错误可能会过时。然而,一些工作在联邦设置中提供了实用的策略,例如强制更新模型变得稀疏和低秩;使用结构化随机旋转执行量化[59];使用有损压缩和随机失活来减少服务器到设备的通信[15];以及应用Golomb无损编码[99]。从理论上看,虽然先前的工作已经探索了在非独立同分布数据存在的情况下[例如111],通过低精度训练的收敛保证,但是所做的假设没有考虑联邦设置的共同特征,例如低设备参与度或局部更新优化方法。

 

2.1.3 Decentralized Training

  在联邦学习中,星形网络(如图3的左侧所示,中央服务器连接到设备网络)是主要的通信拓扑结构;因此,我们在本文中重点讨论星形网络设置。然而,我们简要地讨论了去中心化拓扑(其中设备只与它们的邻居通信,如图3的右侧)作为一种潜在的替代方案。在数据中心环境中,当在低带宽或高延迟的网络上操作时,去中心化训练被证明比中心化训练更快;我们推荐读者在[47,67]上进行更全面的回顾。类似地,在联邦学习中,去中心化算法理论上可以降低中央服务器上的高通信成本。最近的一些工作[47,61]研究了基于局部更新方案的异质数据去中心化训练。然而,它们要么局限于线性模型[47],要么假设设备完全参与[61]。最后,还提出了层级通信模式[68,70],以进一步减轻中央服务器的负担,首先利用边缘服务器聚合来自边缘设备的更新,然后依赖云服务器聚合来自边缘服务器的更新。虽然这是一种有前途的减少通信的方法,但它不适用于所有网络,因为这种类型的物理层次可能不存在或先验已知。

 

2.2 Systems Heterogeneity

  在联邦设置中,由于设备在硬件、网络连接性和电池功率方面可能不同,因此整个网络中的系统特性存在显著的可变性。如图4所示,这些系统特性使诸如掉队者之类的问题比典型的数据中心环境更为普遍。我们大致将处理系统异构性的几个关键方向分为:(i) 异步通信,(ii) 主动设备采样,和(iii) 容错。如第2.1.3节所述,我们在下面的讨论中假设了星形拓扑。

 

 

2.2.1 Asynchronous Communication

  在传统的数据中心设置中,同步和异步方案都常用于并行迭代优化算法,每种方法都有优缺点。同步方案简单且保证了串行等效计算模型,但在设备变化面前,它们也更容易受到掉队者的影响。异步方案是一种很有吸引力的方法来减轻异构环境中的掉队问题,特别是在共享内存系统中[27,30,48,92,141]。然而,它们通常依赖于有界延迟假设来控制过时的程度,对于设备k来说,这取决于自设备k从中央服务器拉取到的已更新的其他设备的数量。虽然异步参数服务器在分布式数据中心[如27,48,141]中已经取得了成功,但在联邦设置中,经典的有界延迟假设可能是不现实的,在联邦设置中,延迟可能是小时到天的顺序,或是完全无界的。

 

2.2.2 Active Sampling

  在联邦网络中,通常只有一小部分设备参与每一轮的训练。然而,绝大多数联邦方法,例如那些在[11,47,65,75,106]中描述的方法,是被动的,因为它们的目的不是影响哪些设备参与。另一种方法是在每一轮中积极选择参与设备。例如,Nishio和Yonetani[83]探索基于系统资源的新设备采样策略,目的是让服务器在预定义的时间窗口内聚合尽可能多的设备更新。同样,Kang等人[57]在设计激励机制以鼓励具有更高质量数据的设备参与学习过程时,考虑到了每个设备上产生的系统管理费用。然而,这些方法假设网络系统特性为一个静态模型;如何扩展这些方法来处理计算和通信延迟中的实时、特定于设备的波动仍然是一个开放的问题。此外,虽然这些方法主要关注系统可变性以执行主动采样,但我们注意到,也值得考虑基于底层统计结构主动采样一组小型但具有足够代表性的设备。

 

2.2.3 Fault Tolerance

  容错在系统界得到了广泛的研究,是经典分布式系统的一个基本考虑因素[19,71,110]。最近的工作还专门针对数据中心环境中的机器学习工作负载研究了容错性[例如,87,112]。然而,当通过远程设备学习时,容错变得更为重要,因为在给定的训练迭代完成之前,一些参与设备通常会在某个点退出。一种实用的策略是简单地忽略这种设备故障[11],如果故障设备具有特定的数据特性,则可能会在设备采样方案中引入偏差。例如,由于网络连接不良,来自偏远地区的设备可能更容易丢失,因此经过训练的联邦模型将偏向于具有良好网络条件的设备。理论上,虽然最近的一些工作已经研究了联邦学习方法变体的收敛保证[56,123,131,132],但是很少有分析允许低参与度[例如65,106],或者直接研究掉队设备的影响。 

  编码计算是通过引入算法冗余来容忍设备故障的另一种选择。最近的研究探索了使用代码加速分布式机器学习训练的方法[例如,20,21,63,94,109]。例如,在存在偏离者的情况下,梯度编码及其变体[20,21,109]小心地跨计算节点复制数据块(以及这些数据块上的梯度计算),以获得真实梯度的精确或不精确重构。虽然这对于联邦设置来说似乎是一种很有前途的方法,但是这些方法在联邦网络中面临着根本的挑战,因为由于隐私限制和网络规模的限制,跨设备共享数据/复制通常是不可行的。

 

2.3 Statistical Heterogeneity

  从数据建模(如图5所示)和分析相关训练过程的收敛行为两个方面,用设备上的非独立同分布数据来训练联邦模型时都会遇到挑战。我们在下面这些方向讨论相关工作。

 

2.3.1 Modeling Heterogeneous Data

  在机器学习中存在大量的文献,通过诸如元学习[114]和多任务学习[18,37]的方法来对统计异质性进行建模;这些想法最近已经扩展到联邦设置[24,26,35,58,106,138]。例如,MOCHA[106],一个为联邦设置设计的优化框架,可以通过学习每个设备的独立但相关的模型来实现个性化,同时通过多任务学习利用共享的表示。该方法对所考虑的目标具有可证明的理论收敛性保证,但其扩展到大规模网络的能力有限,且仅限于凸目标。另一种方法[26]将星型拓扑建模为贝叶斯网络,并在学习期间执行变分推理。虽然这种方法可以处理非凸模型,但推广到大型联邦网络是昂贵的。Khodak等人[58]使用多任务信息(其中每个任务对应于一个设备),可证明地对任务内学习率进行元学习,并已证明比普通FedAvg改进了实验性能。Eichner等人[35]研究了一种多元解决方案(在全局模型和设备特定模型之间自适应选择),以解决联邦训练期间数据样本中的循环模式。Zhao等人[138]通过在一些共享代理数据上集中训练全局模型后运行FedAvg,探索个性化的迁移学习。尽管最近取得了这些进展,但在为异质建模制定方法时仍然面临着关键挑战,这些方法在联邦设置中是健壮的、可伸缩的和自动化的。

  在对联邦数据建模时,考虑精度以外的问题(如公平性)可能也很重要。尤其是,天真地求解如(1)中的总损失函数可能隐含地对某些设备有利或不利,因为所学习的模型可能偏向于具有较大数据量的设备,或者(如果相等地加权设备)偏向于通常出现的设备组。最近的工作提出了改进的建模方法,旨在减少设备之间模型性能的差异。一些启发式算法只是根据本地损失执行不同数量的本地更新[52]。其他更具原则性的方法包括不可知联邦学习(Agnostic Federated Learning)[80],它通过minimax优化方案优化由客户机分布混合形成的任何目标分布的集中模型。Li等人[66]采取了另一种更普遍的方法,提出了一个被称为q-FFL的目标,在该目标中,具有较高损失的设备被赋予较高的相对权重,以鼓励在最终精度分布中减少方差。除了公平性问题外,我们还注意到联邦学习中的问责性和可解释性等方面也值得探讨,但由于网络的规模和异构性,这些方面可能具有挑战性。

 

2.3.2 Convergence Guarantees for Non-IID Data

  统计异质性在分析联邦环境下的收敛行为方面也提出了新的挑战,即使在学习单个全局模型时也是如此。事实上,当数据在网络中的不同设备上分布不一致时,FedAvg等方法在实践中已经被证明是不同的[65,75]。在I.I.D.设置中分析了并行SGD和相关变体,它们使本地更新与FedAvg相似[68,93,104,108,120,121,122,125,136,140]。然而,结果依赖于一个前提,即每个局部解算器是同一随机过程的副本(由于I.I.D.假设),这在典型的联邦设置中不是这样的。为了了解FedAvg在统计异质环境中的性能,FedProx[65]最近被提出。FedProx对FedAvg方法做了一个小的修改,以确保在理论和实践上的收敛性。FedProx也可以解释为FedAvg的一个通用的、重新参数化的版本,它在考虑设备之间的系统异构性方面具有实际的影响。其他一些工作[56,123,131,132]也探索了在不同假设下的异质数据存在的收敛保证,例如凸性[123]或一致有界梯度[131]。也有一些启发式方法旨在通过共享本地设备数据或一些服务器端代理数据来解决统计异质性问题[52,55,138]。然而,这些方法可能是不切实际的:除了在网络带宽上施加负担之外,向服务器发送本地数据[55]违背了联邦学习的密钥隐私假设,并且向所有设备发送全局共享代理数据[52,138]需要努力仔细地生成或收集这样的辅助数据。

 

2.4 Privacy

  隐私问题常常促使人们需要在联邦设置中将每个设备上的原始数据保存在本地。但是,作为训练过程的一部分,共享其他信息(如模型更新)也可能泄漏敏感的用户信息[8,17,39,78]。例如,Carlini等人[17]证明可以从一个基于用户语言数据训练的递归神经网络中提取敏感的文本模式,例如特定的信用卡号码。鉴于业内对隐私保护学习方法越来越感兴趣,在第2.4.1节中,我们首先简要回顾了以往在一般(分布式)机器学习环境中加强隐私的工作。然后,我们将在第2.4.2节中回顾最近专门为联邦设置设计的隐私保护方法。

 

2.4.1 Privacy in Machine Learning 

  机器学习[如76]、系统[如4,11]和理论[如38,69]界对隐私保护学习进行了广泛的研究。我们将简要回顾三种主要的策略,其中包括用差分隐私来传递噪声数据草图、用同态加密来操作加密数据、以及安全的功能评估或多方计算。

  在这些不同的隐私方法中,差分隐私[32、33、34]由于其强大的信息理论保证、算法简单和相对较小的系统开销而被最广泛地使用。简单地说,如果一个输入元素的变化不会导致输出分布的太大差异,那么随机化机制是差异私有的;这意味着不能得出任何关于在学习过程中是否使用特定样本的结论。这种样本级的隐私可以在许多学习任务中实现[2,7,22,53,85,86]。对于基于梯度的学习方法,一种流行的方法是通过在每次迭代时随机扰动中间输出来应用差分隐私(例如,2,7,126)。在应用扰动(例如,通过高斯噪声[2]、拉普拉斯噪声[77]或二项式噪声[3])之前,通常剪裁梯度以限制每个示例对整体更新的影响。差别隐私和模型精度之间存在着固有的权衡,因为增加更多的噪声会带来更大的隐私,但可能会严重影响精度。尽管差异隐私是机器学习中隐私的事实度量,但还有许多其他隐私定义,如k-匿名性[36]、d-存在性[81]和距离相关性[117],可能适用于不同的学习问题[118]。

  除了差分隐私外,同态加密还可以通过计算加密数据来保护学习过程,尽管目前它应用于有限的设置,例如训练线性模型[82]或仅涉及少数实体[133]。当敏感数据集分布在不同的数据所有者之间时,另一个自然的选择是通过安全功能评估(SFE)或安全多方计算(SMC)来执行隐私保护学习。由此产生的协议可以使多个当事方协作计算商定的函数,而不泄漏任何当事方的输入信息,除了可以从输出中推断出的信息外[例如23,43,95]。因此,虽然SMC不能保证信息泄漏的保护,但它可以与差异隐私相结合,以实现更强的隐私保证。然而,这些方法可能不适用于大规模机器学习场景,因为它们会带来大量额外的通信和计算成本。此外,需要为目标学习算法中的每个操作仔细设计和实现SMC协议[25,79]。我们将感兴趣的读者推荐到[13,97]来更全面地回顾基于同态加密和SMC的方法。

 

2.4.2 Privacy in Federated Learning

  联邦设置对现有的隐私保护算法提出了新的挑战。除了提供严格的隐私保证外,还需要开发计算成本低、通信效率高、能够容忍掉线设备的方法,而所有这些都不会过度损害准确性。尽管联邦学习中有各种各样的隐私定义[8,17,41,64,76,113],但通常它们可以分为两类:全局隐私和局部隐私。如图6所示,全局隐私要求在每一轮生成的模型更新对中央服务器以外的所有不受信任的第三方都是私有的,而本地隐私进一步要求更新对服务器也是私有的。

  当前旨在提高联邦学习隐私的工作通常建立在以前的经典密码协议上,如SMC[10,42]和差分隐私[3,8,41,76]。Bonawitz等人[10]引入一个SMC协议来保护单个模型的更新。中心服务器无法看到任何本地更新,但仍可以在每轮中观察精确的聚合结果。SMC是一种无损的方法,它可以保持原始的准确性,并且有很高的隐私保证。然而,由此产生的方法会产生显著的额外通信成本。其他的工作[41,76]将差异隐私应用于联邦学习,并提供全局差异隐私。这些方法有许多影响通信和准确性的超参数,必须仔细选择,尽管后续工作[113]提出了自适应梯度剪裁策略来帮助缓解这一问题。在需要加强隐私保护的情况下,Bhowmick等人[8]通过限制潜在对手的权力,引入放松版的本地隐私。它比全局隐私提供了更强的隐私保证,并且比严格的本地隐私具有更好的模型性能。Li等人[64]提出了元学习环境下的局部差异私有算法,该算法可以应用于具有个性化的联邦学习,同时在凸环境下提供可证明的学习保证。此外,差分隐私可以与模型压缩技术相结合,以减少通信,同时获得隐私利益[3]。

 

3 Future Directions

  联邦学习是一个活跃和持续的研究领域。尽管最近的工作已经开始处理第2节讨论的挑战,但仍有一些关键的开放方向有待探索。在本节中,我们简要概述了围绕先前讨论的挑战(昂贵的通信、系统异构性、统计异质性和隐私问题)的一些有希望的研究方向,并介绍了有关联邦环境中的产品化和基准测试等问题的其他挑战。

  • 极端的通讯方案:在联邦学习中,有多少交流是必要的,还有待观察。事实上,众所周知,机器学习的优化方法可以容忍精度的不足;这个错误实际上有助于泛化[129]。虽然在传统的数据中心环境中已经探索了单点或分而治之的通信方案[73,137],但在大规模或统计异构网络中,这些方法的行为并没有得到很好的理解。类似地,最近为联邦设置提出了一次/几次试探法[44,45,134],但尚未从理论上进行分析或按比例进行评估。
  • 通信降低和Pareto frontier:我们讨论了在联邦训练中减少通信的几种方法,如局部更新和模型压缩。为了创建一个真实的联邦学习系统,了解这些技术是如何相互组合的,并且系统地分析每种方法的准确性和通信之间的权衡是很重要的。特别是,最有用的技术将展示Pareto frontier的改进,在相同的通信预算下,在理想情况下,在广泛的通信/精度剖面上,实现比任何其他方法更高的精度。为了有效地进行神经网络推理[如9],已经进行了类似的综合分析,并且为了以有意义的方式比较用于联邦学习的通信简化技术是必要的。
  • 新的异步模型:如第2.2.1节所述,分布式优化中最常研究的两种通信方案是批量同步方法和异步方法(假设延迟是有界的)。这些方案在数据中心设置中更为实际,其中工作节点通常专用于工作负载,即,它们准备在“推送”上一个作业的结果后立即从中心节点“拉取”下一个作业。相比之下,在联邦网络中,每个设备通常不被分配给手头的任务,并且大多数设备在任何给定的迭代中都不活动。因此,值得研究这种更现实的以设备为中心的通信方案的效果,其中每个设备可以决定何时“唤醒”,并以事件触发的方式与中央服务器交互。
  • 异质性诊断:最近的研究旨在通过诸如局部差异性(定义见[65]中的联邦学习背景,并用于诸如[100,116,130]等工作中的其他目的)和earth mover's distance (EMD)[138]等指标量化统计异质性。然而,在训练发生之前,这些度量不能通过联邦网络轻松计算这些度量的重要性激发了以下开放性问题:(i)是否存在简单的诊断以快速确定联邦网络中的异质性水平?(ii)是否可以开发类似的诊断来量化与系统相关的异质性的数量?(iii)是否可以利用当前或新的异质性定义来进一步改进联邦优化方法的收敛性?

  • 细微的隐私限制:第2.4.2节中概述的隐私定义涵盖了与网络中所有设备相关的本地或全球级别的隐私。然而,在实践中,可能有必要在更细粒度级别上定义隐私,因为隐私约束可能在设备之间或甚至在单个设备上的数据点之间有所不同。例如,Li等人[64]最近提出了样本特定(相对于用户特定)的隐私保证,从而提供了一种较弱的隐私形式,以换取更精确的模型。开发处理混合(设备特定或样本特定)隐私限制的方法是未来工作的一个有趣和持续的方向。

  • 超越监督学习:重要的是要注意到,迄今为止讨论的方法都是随着监督学习的任务而发展起来的,即他们假设联邦网络中的所有数据都存在标签。实际上,在实际的联邦网络中生成的许多数据可能是未标记或弱标记的。此外,目前的问题可能不是将模型与(1)中所示的数据拟合,而是执行一些探索性数据分析、确定聚合统计数据或运行更复杂的任务,如强化学习。在联邦网络中解决监督学习以外的问题可能需要解决可伸缩性、异构性和隐私性方面的类似挑战。

  • 产品性联邦学习:除了本文讨论的主要挑战之外,在产品环境中运行联邦学习时还需要考虑一些实际问题。尤其是概念漂移(当底层数据生成模型随时间变化时);日变化(当设备在一天或一周的不同时间表现出不同的行为时)[35];冷启动问题(当新设备进入网络时)等问题必须小心处理。我们将读者推荐到[11],这篇文章讨论了产品性联邦学习系统中存在的一些与实际系统相关的问题。

  • 基准:最后,由于联邦学习是一个新兴的领域,我们正处于一个关键时刻,以塑造这一领域的发展,并确保它们以现实世界的环境、假设和数据集为基础。对于更广泛的研究界来说,进一步建立在现有的实现和基准工具上,如LEAF[16]和Tensorflow Federated[1]是至关重要的,以促进经验结果的可重复性和联邦学习的新解决方案的传播。

 

4 Conclusion

  在本文中,我们概述了联邦学习,这是一种在分布式网络边缘训练统计模型的学习范式。与传统的分布式数据中心计算和经典的隐私保护学习相比,我们讨论了联邦学习的独特性质和相关的挑战。我们提供了一个关于经典结果的广泛调查,以及最近专门针对联邦设置的工作。最后,我们概述了一些值得进一步研究的开放性问题。为这些问题提供解决方案将需要广泛的研究团体跨学科的努力。

posted on 2019-11-17 10:53  穷酸秀才大草包  阅读(6563)  评论(0编辑  收藏  举报

导航