【论文笔记】Federated Machine Learning: Concept and Applications(综述)

Federated Machine Learning: Concept and Applications

Authors QIANG YANG,YANG LIU,TIANJIAN CHEN,YONGXIN TONG
Keywords Federated learning,GDPR,transfer learning
Abstract 如今的AI仍然面临两个主要挑战:数据孤岛、数据隐私与安全。本文提出一种可能的应对方案:安全的联邦学习。我们为联邦学习框架提供定义、架构与应用,并且提供了对现有工作的综合性调查。另外,本文提出在基于联邦机制的组织机构上构建数据网络,允许知识共享而不用损害用户隐私。
Publication ACM Transactions on Intelligent Systems and Technology 2019
DOI 10.1145/3298981

1 INTRODUCTION

为应对数据孤岛、数据隐私要求(各项隐私保护法律法规颁布),本文提出一种可能的应对方案:联邦学习。

2 FL概览

联邦学习的概念被Google提出[36, 37, 41],主要想法是要构建基于数据集的分布式的机器学习模型,横跨多种设备同时防止数据泄露。

一些工作集中在on-device联邦学习上,其中涉及到分布式移动用户交互,海量分布的通信开销、不平衡的数据分布以及设备可靠性是影响优化的主要因素。

这项工作与隐私保护的机器学习(privacy-preserving machine learning)高度相关,因为它也考虑到了在分散协作学习环境中的数据隐私。我们将原始的“联邦学习”拓展为一个通用概念:所有隐私保护的分散式协作机器学习技术。

2.1 FL中的定义

定义\(N\)个数据拥有者\(\mathcal{ \{F_1,...F_N\} }\),都希望通过合并各自数据\(\cal{ \{D_1,...D_N\} }\)来训练一个机器学习模型。一个传统的方法是将数据集中起来并采用\(\cal{D=D_1 \cup ... \cup D_N}\)训练模型\(\cal{M_{SUM}}\)。一个联邦学习系统是一个数据拥有者协作训练一个模型\(\cal{M_{FED}}\)的学习过程,处理任何数据拥有着\(\cal{F_i}\)不暴露其数据\(D_i\)给其他人。另外,\(\cal{M_{FED}}\)的正确率表示为\(\cal{V_{FED}}\),应该非常接近\(\cal{M_{SUM}}\)的表现\(\cal{V_{SUM}}\)。形式上地,令\(\delta\)为一个非负实数,如果

\[\left|\mathcal{V}_{F E D}-\mathcal{V}_{S U M}\right|<\delta \tag{1} \]

我们就称该FL算法有\(\delta\)正确率损失(\(\delta-accuracy \ loss\))。

2.2 FL的隐私

隐私是FL的本质特征之一,需要安全模型与分析以提供有意义的隐私保证。

安全多方计算(Secure Multiparty Computation,SMC):SMC安全模型涉及多方,并在定义良好的仿真框架中提供安全证明,以确保完全零知识,即各方除了其输入和输出之外什么都不知道。零知识是非常理想的,但这种理想的属性通常需要复杂的计算协议,可能无法有效地实现。在某些情况下,如果提供安全保证,部分知识披露可能被认为是可以接受的。在较低的安全要求下,可以用SMC建立一个安全模型,以换取效率[16]。

差分隐私(Differential Privacy):另一种工作是使用差异隐私(differential privacy)[18]或k匿名(k-anonymity)[63]技术来保护数据隐私[1、12、42、61]。差异隐私、k-匿名和多样化[3]的方法涉及向数据添加噪声,或使用泛化方法隐藏某些敏感属性,直到第三方无法区分个人,从而使数据无法恢复以保护用户隐私。然而,这些方法的根源仍然要求将数据传输到其他地方,这通常涉及准确性和隐私之间的权衡。在客户机的学习过程中,为了增加对隐私的保护,联邦作者采用了“差异化”的方法。

同态加密(Homomorphic Encryption):在机器学习期间,还采用同态加密[53]通过加密机制下的参数交换来保护用户数据隐私[24,26,48]。与差分隐私保护不同,数据和模型本身不会被传输,也不能被另一方的数据猜测到,因此,在原始数据级别泄漏的可能性很小。

2.2.1 间接的信息泄露

FL的先前工作从优化算法(如SGD)中暴露了中间结果(如参数更新),然而却没有得到安全保证,当与数据结构一起暴露(如图片像素)时,梯度的泄露确实可能会泄露重要数据信息[51]。

研究人员已经考虑了这样一种情况:FL系统成员之一通过允许插入后门以学习其他人的数据,恶意地攻击他人。

  • [6]证明了在联合全局模型中插入隐藏后门是可能的,并提出了一种新的“constrain-and-scale”模型投毒方法,以减少数据投毒。
  • [43]发现了协作机器学习系统中的潜在漏洞,即协作学习中各方使用的训练数据容易受到推理攻击。他们表明,对抗性参与者可以推断成员身份以及与训练数据子集相关的属性。他们还讨论了针对这些袭击的可能防御措施。
  • [62]揭示了与不同方之间梯度交换相关的潜在安全问题,并提出了梯度下降法的一种安全变体。他们表明,它可以容忍多达一部分Byzantine工人。

研究人员也已经开始考虑区块链作为促进FL的平台。

  • [34]考虑了一种区块链的FL(BlockFL)架构,利用区块链交换和验证移动设备的本地更新。

2.3 FL的一种分类

令矩阵\(\cal{D_i}\)表示每个数据拥有者\(i\)拥有的数据,每行代表一个样本,每列代表一个特征,同时一些数据集可能也包含标签。令特征空间表示为\(\cal{X}\),标签空间为\(\cal{Y}\),样本ID空间为\(\cal{I}\),共同组成了完整的训练集\(\cal{(I, X, Y)}\)

image

2.3.1 横向联邦学习(Horizontal Federated Learning)

在数据集共享相同的特征空间但样本空间不同的场景中,引入了横向联邦学习(基于样本的联邦学习)。例如,两个地区银行可能有与其各自地区非常不同的用户组,并且其用户的交集非常小。然而,它们的业务非常相似,因此特征空间是高度相似的。

我们总结HFL如下:

\[\cal{X_i=X_j,\ Y_i=Y_j,\ I_i\neq I_j,\ \forall D_i,D_j,i\neq j} \tag{2} \]

安全定义:HFL系统通常假设参与方诚实,并且对诚实但好奇的服务器具有安全性。也就是说,只有服务器可以损害数据参与者的隐私。最近,还提出了另一种考虑恶意用户的安全模型[29],带来了额外的隐私挑战。

2.3.2 纵向联邦学习(Vertical Federated Learning)

已经针对纵向分区数据提出了保护隐私的机器学习算法,包括合作统计分析[15]、关联规则挖掘[65]、安全线性回归[22、32、55]、分类[16]和梯度下降[68]。最近,[27,49]的作者提出了一种纵向联邦学习方案来训练一个隐私保护逻辑回归模型。作者研究了实体分辨率对学习性能的影响,并将泰勒近似应用于损失函数和梯度函数,以便在隐私保护计算中采用同态加密。

纵向联邦学习(基于特征的联邦学习)适用于两个数据集共享相同的样本ID空间但特征空间不同的情况。例如,考虑同一个城市的两个不同的公司:一个是银行,另一个是电子商务公司。他们的用户集可能包含该地区的大多数居民,因此,它们的用户空间的交集很大,然而,由于银行记录了用户的收支行为和信用评级,而电子商务保留了用户的浏览和购买历史,因此它们的特征空间非常不同。

我们有:

\[\cal{X_i\neq X_j,\ Y_i\neq Y_j,\ I_i=I_j,\ \forall D_i,D_j,i\neq j} \tag{3} \]

安全定义:纵向联邦学习系统通常假定参与者诚实但好奇,例如,在一个双方当事人的案件中,双方都没有共谋,最多一方被对手损害。安全定义是,对手只能从其损坏的客户端获取数据,而不能从其他客户端获取输入和输出之外的数据。为了促进双方之间的安全计算,有时会引入半诚实第三方(STP),在这种情况下,假定STP不会与任何一方串通。SMC为这些协议提供正式的隐私证明[25]。在学习结束时,各方仅持有与自身特征相关的模型参数。因此,在推理时,双方还需要协作以生成输出。

2.3.3 联邦迁移学习(Federated Transfer Learning,FTL)

联邦迁移学习适用于两个数据集不仅在样本上而且在特征空间上不同的场景。考虑两个机构:一个是位于中国的银行,另一个是位于美国的电子商务公司。由于地理限制,这两个机构的用户组有一个小的交叉点,另一方面,由于业务的不同,双方的特征空间只有一小部分重叠。在这种情况下,可以应用迁移学习[50]技术为联邦下的整个样本和特征空间提供解决方案。特别是,使用有限的公共样本集学习两个特征空间之间的公共表示,然后应用该表示来获得仅具有单侧特征的样本的预测。FTL是对现有联邦学习系统的重要扩展,因为它处理的问题超出了现有联邦学习算法的范围:

\[\cal{X_i\neq X_j,\ Y_i\neq Y_j,\ I_i\neq I_j,\ \forall D_i,D_j,i\neq j} \tag{4} \]

安全定义:联邦迁移学习系统通常涉及两方。如下一节所示,其协议类似于纵向联邦学习中的协议,在这种情况下,可以在此扩展纵向联邦学习的安全定义。

2.4 FL系统架构

2.4.1 横向联邦学习

一个传统的横向联邦学习系统架构如Fig.3所示,在一个参数服务器或云服务器的帮助下,有相同数据结构的\(k\)个参与方协作地学习一个ML模型。通常假设参与方是诚实的,服务器是诚实但好奇的。因此,只有服务器可以泄露信息。

训练过程如下:

  1. 参与方在本地计算训练梯度,用加密、差分隐私或秘密共享技术掩盖所选梯度,发送掩盖后的结果到服务器。
  2. 服务器执行安全聚合,没有关于任何参与方的学习信息。
  3. 服务器将聚合后的结果发送给参与方。
  4. 参与方分别根据解密后的梯度更新各自模型。

重复上述步骤直到损失函数收敛。

image

安全性分析:如果用SMC或同态加密进行梯度聚合,上述体系结构被证明可以防止半诚实服务器的数据泄漏。然而,它可能受制于其他安全模型中的攻击,例如恶意方在协作学习过程中训练一个GAN。

2.4.2 纵向联邦学习

假设A公司和B公司希望联合训练机器学习模型,并且他们的业务系统都有自己的数据。此外,B公司还拥有模型需要预测的标签数据。出于数据隐私和安全原因,A和B不能直接交换数据。为了确保训练过程中数据的机密性,第三方合作者C参与其中。在此,我们假设合作者C是诚实的,没有与A或B勾结,但A和B是诚实但彼此好奇的。可信的第三方C是一个合理的假设,因为第三方C可以由政府等机构扮演,也可以由Intel Software Guard Extensions(SGXs)等安全计算节点代替[7]。联邦学习系统由两部分组成,如Fig.4所示。

  • 加密的实体对齐:由于两家公司的用户组不同,系统使用基于加密的用户ID对齐技术(如[38,56]中所述)来确认双方的共同用户,而无需A和B公开各自的数据。在实体对齐期间,系统不会公开彼此不重叠的用户。
  • 加密的模型训练:在决定了共同实体之后,我们可以用共同实体的数据训练ML模型,训练过程可以分为以下四步(如Fig,4所示):
    1. 合作者C创造加密对并发送一个公钥给A与B。
    2. A与B加密并针对梯度与损失计算交换中间结果。
    3. A与B计算加密的梯度并分别加入额外的掩码,B也计算加密的损失,A与B将加密后的值发送给C。
    4. C加密并将加密后的梯度与损失发送回A与B,A与B解码梯度并更新模型参数。

image

这里,我们使用线性回归与同态加密为例说明训练过程。为了用梯度下降方法训练一个线性回归模型,我们需要安全计算其损失与梯度。假设学习率为\(\eta\),正则化参数为\(\lambda\),数据集\(\{ x^A_i \}_{i\in \cal{D_A}}\)\(\{ x^B_i,y_i \}_{i\in \cal{D_B}}\)与模型参数\(\Theta_A\)\(\Theta_B\)分别对应\(x^A_i\)\(x^B_i\)的特征空间,训练目标是

\[\min _{\Theta_{A}, \Theta_{B}} \sum_{i}\left\|\Theta_{A} x_{i}^{A}+\Theta_{B} x_{i}^{B}-y_{i}\right\|^{2}+\frac{\lambda}{2}\left(\left\|\Theta_{A}\right\|^{2}+\left\|\Theta_{B}\right\|^{2}\right) \tag{5} \]

\(u^A_i=\Theta_A x^A_i\)\(u^A_i=\Theta_A x^A_i\),然后,加密后的损失为

\[[[\mathcal{L}]]=\left[\left[\sum_{i}\left(\left(u_{i}^{A}+u_{i}^{B}-y_{i}\right)\right)^{2}+\frac{\lambda}{2}\left(\Theta_{A}^{2}+\Theta_{B}^{2}\right)\right]\right] \tag{6} \]

其中,附加的同态加密表示为\([[\cdot]]\)。令\(\left[\left[\mathcal{L}_{A}\right]\right]=\left[\left[\sum_{i}\left(\left(u_{i}^{A}\right)^{2}\right)+\frac{\lambda}{2} \Theta_{A}^{2}\right]\right]\)\(\left[\left[\mathcal{L}_{B}\right]\right]=\left[\left[\sum_{i}\left(\left(u_{i}^{B}-y_{i}\right)^{2}\right)+\frac{\lambda}{2} \Theta_{B}^{2}\right]\right]\),并且\(\left[\left[\mathcal{L}_{A B}\right]\right]=2 \sum_{i}\left(\left[\left[u_{i}^{A}\right]\right]\left(u_{i}^{B}-y_{i}\right)\right)\),然后,

\[[[\mathcal{L}]]=\left[\left[\mathcal{L}_{A}\right]\right]+\left[\left[\mathcal{L}_{B}\right]\right]+\left[\left[\mathcal{L}_{A B}\right]\right] \tag{7} \]

相似地,令\(\left[\left[d_{i}\right]\right]=\left[\left[u_{i}^{A}\right]\right]+\left[\left[u_{i}^{B}-y_{i}\right]\right]\),然后,梯度为

\[\left[\left[\frac{\partial \mathcal{L}}{\partial \Theta_{A}}\right]\right]=\sum_{i}\left[\left[d_{i}\right]\right] x_{i}^{A}+\left[\left[\lambda \Theta_{A}\right]\right] \tag{8} \]

\[\left[\left[\frac{\partial \mathcal{L}}{\partial \Theta_{B}}\right]\right]=\sum_{i}\left[\left[d_{i}\right]\right] x_{i}^{B}+\left[\left[\lambda \Theta_{B}\right]\right] \tag{9} \]

细致步骤可看Table 1 2。在实体对齐与模型训练时,A与B的数据被保留在本地并且训练中的数据交互不会导致隐私泄露。注意,潜在的向C泄露信息可能会也可能不会被考虑为隐私侵犯。在这种情况下,为了进一步防止C从A或B学习信息,A和B可以通过添加加密的随机掩码来进一步向C隐藏其梯度。因此,双方在联邦学习的帮助下合作实现了共同模型的训练。因为,在训练期间,如果使用在一个地方收集的数据联合构建一个模型而不受隐私限制,则各方收到的损失和梯度与他们将收到的损失和梯度完全相同,也就是说,该模型是无损的。该模型的效率取决于加密数据的通信成本和计算成本。在每次迭代中,A和B之间发送的信息会随着重叠样本的数量进行缩放。因此,采用分布式并行计算技术可以进一步提高该算法的效率。

image

安全性分析:Table 1中所示的训练协议不会暴露任何信息给C,因为所有C所学习的都是被加掩码过后的梯度。在上述协议中,A在每一步学习其梯度,但这不足以让A根据方程(8)从B那里学习任何信息,因为标量积协议的安全性是基于无法在n个以上的未知量中求解n个方程而建立的[16, 65]。这里假设样本数量\(N_A\)比特征数量\(n_A\)大得多。同样,B无法从A处了解任何信息,因此,证明了协议的安全性。请注意,我们假设双方都是半诚实的。如果一方是恶意的,并通过伪造输入欺骗系统,例如,甲方只提交一个非零输入,只有一个非零特征,它可以告诉该样本该特征的\(u^B_i\)值。尽管如此,它仍然无法分辨\(x^B_i\)\(\Theta_B\),这种偏差将扭曲下一次迭代的结果,从而警告另一方,后者将终止学习过程。在训练过程结束时,每一方(A或B)都会忘记另一方的数据结构,并获得仅与自身特征相关联的模型参数。在推断时,双方需要按照Table 2所示的步骤协同计算预测结果,这仍然不会导致信息泄漏。

2.4.3 联邦迁移学习

假设在上面的纵向联邦学习示例中,A方和B方只有一组非常小的重叠样本,我们有兴趣学习A方中整个数据集的标签。到目前为止,上述部分中描述的体系结构仅适用于重叠数据集。为了将其覆盖范围扩展到整个样本空间,我们引入了迁移学习。这不会改变Fig.4所示的总体架构,但会改变双方之间交换的中间结果的细节。具体而言,转移学习通常涉及学习各方A和B的特征之间的共同表示,并通过利用源域方(本例中为B)中的标签,最大限度地减少预测目标域方标签时的错误。因此,A方和B方的梯度计算不同于纵向联邦学习场景中的梯度计算。在推理时,仍然需要双方计算预测结果。

2.4.4 激励机制

为了使不同组织之间的联邦学习完全商业化,需要开发一个公平的平台和激励机制[20]。模型建立后,模型的性能将在实际应用中得到体现。这种性能可以记录在永久数据记录机制(如区块链)中。提供更多数据的组织会更好,模型的有效性取决于数据提供者对系统的贡献。这些模型的有效性基于联邦机制分发给各方,并继续激励更多组织加入数据联邦。

上述架构的实施不仅考虑了多个组织之间的隐私保护和协作建模的有效性,还考虑了如何奖励贡献更多数据的组织,以及如何利用共识机制实施激励。因此,联邦学习是一种“闭环”(closed-loop)学习机制。

3 相关工作

下面从多个方面解释FL与其他相关概念之间的关系。

3.1 隐私保护的机器学习(Privacy-Preserving Machine Learning)

联邦学习可以看作是一种隐私保护的、分散的协作式机器学习。因此,它与多方、隐私保护的机器学习密切相关。过去,许多研究工作都致力于这一领域。

  • [17,67]提出了用于垂直分区数据的安全多方决策树的算法。
  • Vaidya和Clifton提出了用于垂直分区数据的安全关联挖掘规则[65]、安全k-均值[66]和朴素贝叶斯分类器[64]。
  • [31]提出了一种在水平分区数据上关联规则的算法。
  • 安全的支持向量机算法已针对垂直分区数据[73]和水平分区数据[74]开发。
  • [16]提出了多方线性回归和分类的安全协议。
  • [68]提出了安全的多方梯度下降方法。

上述这些工作都使用SMC[25,72]来保证隐私。

  • [48]使用同态加密和Yao's'乱码电路在水平分区数据上实现了一个用于线性回归的隐私保护协议。
  • [22,24]提出了一种用于垂直分区数据的线性回归方法。这些系统直接解决了线性回归问题。
  • [47]探讨了SGD的问题,并提出了逻辑回归和神经网络的隐私保护协议。
  • [44]提出了一个三服务器模型的后续工作。
  • [4]提出了一种使用同态加密的安全logistic回归协议。
  • [58]提出了通过交换更新的参数来训练水平分区数据的神经网络。
  • [51]使用了附加同态加密来保护梯度的隐私并增强系统的安全性。
  • 随着深度学习的最新进展,保护隐私的神经网络推理也受到了很多研究兴趣[10、11、14、28、40、52、54]。

3.2 FL vs 分布式机器学习(Distributed Machine Learning)

乍一看,横向联邦学习与分布式机器学习有些相似。分布式机器学习涉及多个方面,包括训练数据的分布式存储、计算任务的分布式操作以及模型结果的分布式分布。参数服务器是分布式机器学习中的一个典型元素。作为加速训练过程的工具,参数服务器将数据存储在分布式工作节点上,并通过中央调度节点分配数据和计算资源,以更高效地训练模型。对于水平联邦学习,工作节点表示数据所有者。它对本地数据具有完全的自主权;它可以决定何时以及如何加入联邦学习。在参数服务器中,中心节点始终控制;因此,联邦学习面临着更复杂的学习环境。此外,联邦学习强调在模型培训过程中保护数据所有者的数据隐私。有效的数据隐私保护措施可以更好地应对未来日益严格的数据隐私和数据安全监管环境。

就像在分布式ML环境中一样,FL也将需要处理Non-IID数据。[77]表明,在Non-IID本地数据下,FL表现会大大降低。

3.3 FL vs 边缘计算(Edge Computing)

联邦学习可以看作是边缘计算的操作系统,因为它为协调和安全提供了学习协议。[69]考虑了一类通用的机器学习模型,该模型使用基于梯度下降的方法进行训练。他们从理论上分析了分布式梯度下降的收敛界,并在此基础上提出了一种控制算法,该算法在给定资源预算下,确定局部更新和全局参数聚集之间的最佳权衡,以最小化损失函数。

3.4 FL vs 联邦数据库系统(Federated Database Systems)

联邦数据库系统[57]是集成多个数据库单元并作为一个整体管理集成系统的系统。联邦数据库概念的提出是为了实现与多个独立数据库的互操作性。联邦数据库系统通常为数据库单元使用分布式存储,实际上,每个数据库单元中的数据都是异构的。因此,它在数据类型和存储方面与联邦学习有许多相似之处。然而,联邦数据库系统在相互交互过程中不涉及任何隐私保护机制,所有数据库单元对管理系统都是完全可见的。此外,联邦数据库系统的重点是数据的基本操作,包括插入、删除、搜索和合并,而联邦学习的目的是在保护数据隐私的前提下为每个数据所有者建立一个联合模型,以便数据包含的各种值和法律更好地为我们服务。

4 应用

以智能零售为例。其目的是利用机器学习技术为客户提供个性化服务,主要包括产品推荐和销售服务。智能零售业务涉及的数据特征主要包括用户购买力、用户个人偏好和产品特征。在实际应用中,这三个数据特征可能分散在三个不同的部门或企业中。例如,用户的购买力可以从用户的银行储蓄中推断出来,个人偏好可以从用户的社交网络中分析出来,而产品的特征则由网店记录下来。在这种情况下,我们面临两个问题。首先,为了保护数据隐私和数据安全,银行、社交网站和电子购物网站之间的数据壁垒难以打破。因此,无法直接聚合数据来训练模型。第二,三方存储的数据通常是异构的,传统的机器学习模型不能直接处理异构数据。目前,传统的机器学习方法并没有有效地解决这些问题,阻碍了人工智能在更多领域的推广应用。

联邦学习和迁移学习是解决这些问题的关键。首先,利用联邦学习的特点,我们可以在不导出企业数据的情况下为三方构建机器学习模型,这不仅充分保护了数据隐私和数据安全,而且为客户提供了个性化和有针对性的服务,从而实现了互惠互利。同时,我们可以利用迁移学习解决数据异构问题,突破传统人工智能技术的局限性。因此,联邦学习为我们构建跨企业、跨数据、跨领域的大数据和人工智能生态圈提供了良好的技术支持。

可以使用联邦学习框架进行多方数据库查询,而无需公开数据。例如,假设在金融应用程序中,我们对检测多方借款感兴趣,这一直是银行业的一个主要风险因素。当某些用户恶意从一家银行借款以支付另一家银行的贷款时,就会发生这种情况。多党借贷对金融稳定构成威胁,因为大量此类非法行为可能导致整个金融系统崩溃。为了找到这样的用户,而不必在banksA和B之间相互公开用户列表,我们可以利用联邦学习框架。特别是,我们可以使用联邦学习的加密机制,对各方的用户列表进行加密,然后在联邦中取加密列表的交集。最终结果的解密将给出多方借款人的列表,而不会将其他“好”用户暴露给另一方。正如我们将在下面看到的,此操作对应于垂直联邦学习框架。

智能医疗是另一个我们预计将从联邦学习技术的兴起中受益匪浅的领域。疾病症状、基因序列和医疗报告等医疗数据非常敏感和私有,但医疗数据集很难收集,并且存在于孤立的医疗中心和医院中。数据源的不足和标签的缺乏导致机器学习模型的性能不尽如人意,这已成为当前智能医疗的瓶颈。我们设想,如果所有医疗机构联合起来,共享其数据,形成一个大型医疗数据集,那么在该大型医疗数据集上训练的机器学习模型的性能将显著提高。联邦学习与迁移学习相结合是实现这一愿景的主要途径。迁移学习可以用来填补缺失的标签,从而扩大可用数据的规模,进一步提高经过训练的模型的性能。因此,联邦迁移学习将在智能医疗的发展中发挥关键作用,并可能将人类医疗提升到一个全新的水平。

5 企业的联邦学习与数据联盟

联邦学习不仅是一种技术标准,也是一种商业模式。当人们意识到大数据的影响时,他们首先想到的是聚合数据,通过远程处理器计算模型,然后下载结果以供进一步使用。云计算就是在这样的需求下应运而生的。尽管如此,随着数据隐私和数据安全的重要性日益提高,公司利润与其数据之间的关系日益密切,云计算模式受到了挑战。然而,联邦学习的商业模式为大数据的应用提供了新的范例。当每个机构占用的孤立数据无法生成理想模型时,联邦学习机制使机构和企业能够共享一个统一的模型,而无需进行数据交换。此外,联邦学习可以借助区块链技术的共识机制,制定公平的利润分配规则。无论数据拥有者拥有的数据规模有多大,他们都会被激励加入数据联盟并赚取自己的利润。我们认为,数据联盟商业模式的建立和联邦学习技术机制的建立应该一起进行。我们还将制定各个领域的联邦学习标准,以便尽快将其投入使用。

6 总结与展望

本文概括介绍了联邦学习的基本概念、体系结构和技术,并讨论了其在各种应用中的潜力。

posted @ 2022-05-19 23:11  MaplesWCT  阅读(488)  评论(0编辑  收藏  举报