联邦学习(Federated Learning)详解以及示例代码

联邦学习也称为协同学习,它可以在产生数据的设备上进行大规模的训练,并且这些敏感数据保留在数据的所有者那里,本地收集、本地训练。在本地训练后,中央的训练协调器通过获取分布模型的更新获得每个节点的训练贡献,但是不访问实际的敏感数据。

联邦学习本身并不能保证隐私(稍后我们将讨论联邦学习系统中的隐私破坏和修复),但它确实使隐私成为可能。

联邦学习的用例:

  • 手机输入法的下一个词预测(e.g. McMahan et al. 2017, Hard et al. 2019)
  • 健康研究(e.g. Kaissis et al. 2020, Sadilek et al. 2021)
  • 汽车自动驾驶(e.g. Zeng et al. 2021, OpenMined 的文章)
  • “智能家居”系统(e.g. Matchi et al. 2019, Wu et al. 2020)

因为隐私的问题所以对于个人来说,人们宁愿放弃他们的个人数据,也不会将数据提供给平台(平台有时候也想着白嫖😉),所以联邦学习几乎涵盖了所有以个人为单位进行预测的所有场景。

 

随着公众和政策制定者越来越意识到隐私的重要性,数据实践中对保护隐私的机器学习的需求也正在上升,对于数据的访问受到越来越多的审查,对联邦学习等尊重隐私的工具的研究也越来越活跃。在理想情况下,联邦学习可以在保护个人和机构的隐私的前提下,使数据利益相关者之间的合作成为可能,因为以前商业机密、私人健康信息或数据泄露风险的通常使这种合作变得困难甚至无法进行。

欧盟《通用数据保护条例》或《加利福尼亚消费者隐私法》等政府法规使联邦学习等隐私保护策略成为希望保持合法运营的企业的有用工具。与此同时,在保持模型性能和效率的同时获得所需的隐私和安全程度,这本身就带来了大量技术挑战。

从个人数据生产者(我们都是其中的一员)的日常角度来看,至少在理论上是可以在私人健康和财务数据之间放置一些东西来屏蔽那种跟踪你在网上行为设置暴露你的个人隐私的所谓的大杂烩生态系统。

如果这些问题中的任何一个引起你的共鸣,请继续阅读以了解更多关于联邦学习的复杂性以及它可以为使用敏感数据的机器学习做了哪些工作。

 

联邦学习的目的是训练来自多个数据源的单个模型,其约束条件是数据停留在数据源上,而不是由数据源(也称为节点、客户端)交换,也不是由中央服务器进行编排训练(如果存在的话)。

 

完整文章  联邦学习(Federated Learning)详解以及示例代码

posted @ 2021-12-11 13:10  deephub  阅读(1701)  评论(0编辑  收藏  举报