随笔分类 -  联邦学习

摘要:联邦学习:联邦场景下的域泛化然而,目前大多数域泛化方法需要将不同领域的数据进行集中收集。然而在现实场景下,由于隐私性的考虑,数据常常是分布式收集的。因此我们需要考虑联邦域泛化(federated domain generalization, FedDG)方法。这里需要注意的是,传统的域泛化方法常常要求直接对齐表征或操作数据,这在联邦场景下是违反数据隐私性的。此外对于跨域的联邦学习,由于客户端异构的数据分布/领域漂移(如不同的图像风格)所导致的模型偏差(bias),直接聚合本地模型的参数也会导致次优(sub-optimal)的全局模型,从而更难泛化到新的目标域。 阅读全文
posted @ 2023-05-13 22:04 orion-orion 阅读(760) 评论(0) 推荐(0) 编辑
摘要:联邦学习:联邦异构知识图谱数据划分在联邦场景下,C个知识图谱位于不同的客户端上。知识图谱拥的实体集合之间可能会存在重叠,而其关系集合和元组集合之间则不会重叠。我们联系一下现实场景看这是合理的,比如在不同客户端对应不同银行的情况下,由于不同银行都有着自己的业务流程,所以关系集合不重叠。本文我们来看具体在实验环节怎么去划分联邦异构知识图谱数据。 阅读全文
posted @ 2022-10-26 18:30 orion-orion 阅读(894) 评论(0) 推荐(0) 编辑
摘要:联邦学习:联邦场景下的跨域推荐推荐系统中常常面临冷启动和用户交互数据稀疏的问题。解决这个问题的一个手段就是对用户在多个领域(domain)的日志数据联合起来进行建模,而多视角(multi view)/跨域(cross domain)推荐模型就是一种常见的跨域数据联合建模方式,它会将多个视角/领域对应的特征映射到一个共享的隐空间(latent space)。跨领域推荐在实际应用中常常面临隐私性的挑战,其一是不同用户的数据难以合法地进行集中化收集;其二是其使用的迁移学习模型跨不同的域和数据集进行映射,这常常会关联到不同的组织机构,同样会面临隐私问题[2]。此时上面提到的需要将数据集中起来的跨域推荐方法就不再行得通了,需要考虑在联邦场景下的跨域推荐模型。 阅读全文
posted @ 2022-08-13 22:08 orion-orion 阅读(1196) 评论(0) 推荐(0) 编辑
摘要:联邦学习:联邦场景下的多源知识图谱嵌入在实际应用中我们常常面临一系列来自不同数据持有方的知识图谱,我们将其称为多源知识图谱(Multi-Source KG)。按照数据异构程度可分为两种形式,第一种类型中各知识图谱的领域(domain)相同,比如都是来自不同银行的用户知识图谱。这些知识图谱中也可能有实体重叠(overlapped),因为在日常生活中,一个用户很可能在不同银行都产生有相关的数据(元组);第二种情况数据更具有异构性,各个知识图谱之间是跨领域(cross domain)的 。 阅读全文
posted @ 2022-07-31 15:52 orion-orion 阅读(2207) 评论(0) 推荐(0) 编辑
摘要:联邦学习:联邦场景下的时空数据挖掘时空数据挖掘做为智慧城市的重要组成部分,和我们的日常生活息息相关。如我们打开地图软件,会根据交通流量的预测为我们推荐路线;通过网约车软件下单,会为我们就近做订单匹配;通过外卖软件点外卖,会为我们就近做外卖员匹配,等等。然而,时空数据挖掘在实际使用的过程中会面临一个难点,那就是跨平台协作。比如在疫情期间,我们需要对确诊病例的行程轨迹做追溯。而我们知道,一个人在行程中可能会使用多个软件,比如滴滴出行、共享单车乃至健身软件等。而如何让信息在不同平台间共享便成为难点。 阅读全文
posted @ 2022-07-20 22:30 orion-orion 阅读(1126) 评论(2) 推荐(0) 编辑
摘要:联邦学习:多任务思想与聚类联邦学习在联邦学习领域,许多传统机器学习已经讨论过的问题(甚至一些90年代和00年代的论文)都可以被再次被发明一次。比如我们会发现聚类联邦学习和多任务学习之间就有千丝万缕的联系。聚类联邦学习基本上都基于这样一个假设:虽然联邦学习中各节点的数据是Non-IID的,但是我们可以假定某些节点的数据可以归为一个聚类簇(簇内节点的分布近似IID)。实际上,这个思想让我们联想到高斯混合分布。高斯混合分布就假设每个节点的数据采样自高斯混合分布中的一个成分(对应一个簇),而经典的高斯混合聚类就是要确定每个节点和簇的对应关系。 阅读全文
posted @ 2022-03-15 21:17 orion-orion 阅读(2980) 评论(4) 推荐(2) 编辑
摘要:联邦学习:按混合分布划分Non-IID样本在上一篇博文中我们已经提到了按照Dirichlet分布划分联邦学习Non-IID数据集的一种算法。下面让我们来看按Dirichlet分布划分数据集的另外一种变种,即按混合分布划分Non-IID样本,该方法在NIPS2021的一篇论文中首次提出。该论文提出了一个重要的假设,那就是虽然联邦学习每个client的数据是Non-IID,但我们假设它们都来自一个混合分布(混合成分个数为超参数可调。 阅读全文
posted @ 2022-03-10 21:39 orion-orion 阅读(2438) 评论(2) 推荐(1) 编辑
摘要:联邦学习中的优化算法联邦学习做为一种特殊的分布式机器学习,仍然面临着分布式机器学习中存在的问题,那就是设计分布式的优化算法。 不过相比传统的分布式机器学习,它需要关注系统异质性(system heterogeneity)、统计异质性(statistical heterogeneity)和数据隐私性(data privacy)。系统异质性体现为昂贵的通信代价和节点随时可能宕掉的风险(容错);统计异质性数据的不独立同分布(Non-IID)和不平衡。由于以上限制,传统分布式机器学习的优化算法便不再适用,需要设计专用的联邦学习优化算法。 阅读全文
posted @ 2022-03-04 15:37 orion-orion 阅读(4795) 评论(0) 推荐(3) 编辑
摘要:分布式多任务学习及联邦学习个性化现在多任务学习根据数据的收集方式可以粗略地被分为两种,一个是集中化的计算方法,即假定数据被事先收集到一个中心节点上然后再运行模型, 大多数基于神经网络的多任务学习应用,比如CV和NLP,主要都用的这种方法。另外还有一种是分布式的计算方法,这种方法假定异构的(heterogeneous)数据分别由各个任务分别以分布式的方式收集。近年来由于联邦学习的火热,该方法得到了很多的重视。 阅读全文
posted @ 2022-03-01 18:50 orion-orion 阅读(1481) 评论(0) 推荐(1) 编辑
摘要:联邦学习:按Dirichlet分布划分Non-IID样本我们在联邦学习中,经常会假设不同client间的数据集不满足独立同分布(non-iid)。那么我们如何将一个现有的数据集按照non-iid划分呢?我们知道带标签样本的生成分布看可以表示为p(x,y),我们进一步将其写作p(x,y)=p(x|y)p(y)。其中如果要估计p(x|y)的计算开销非常大,但估计p(y)的计算开销就很小。所有我们按照样本的标签分布来对样本进行non-iid划分是一个非常高效、简便的做法。 阅读全文
posted @ 2022-02-15 19:15 orion-orion 阅读(5168) 评论(2) 推荐(1) 编辑
摘要:分布式机器学习、联邦学习、多智能体的区别和联系最近这三个方面的论文都读过,这里写一篇博客归纳一下,以方便搞这几个领域的其他童鞋入门。传统的分布式机器学习已经被研究十几年了,目前各大顶会上的分布式机器学习主要是数学味道很浓的分布式数值优化算法。而联邦学习可以看做一种特殊的分布式学习,它有一些特殊的设定,比普通的分布式学习要困难一些,还是有很多方向可以研究的,做好了应该可以发顶会。多智能体系统是一组自主的,相互作用的实体,它们共享一个共同的环境,利用传感器感知,并利用执行器作动。 阅读全文
posted @ 2021-12-11 18:47 orion-orion 阅读(4827) 评论(5) 推荐(3) 编辑
摘要:联邦学习中的模型架构在上一篇博文《联邦学习中的模型聚合》中,我们关注了在联邦学习中模型聚合(参数通信)的问题,但是对每一个client具体的模型架构设计和参数优化方法还没有讨论。本篇文章我们关注具体模型结构设计和参数优化。首先,在本篇论文中不同的client有一个集成模型,而每一个集成模型由多个模型分量组成,可以清晰地观察到其层次结构。接下来我们就**自顶向下**地分层次展示Client、Learners_ensemble和每个Learner的设计原理。 阅读全文
posted @ 2021-12-05 17:18 orion-orion 阅读(1367) 评论(1) 推荐(0) 编辑
摘要:联邦学习中的模型聚合我follow的这篇论文在联邦学习(分布式)的情景下引入了多任务学习,其采用的手段是使每个client/task节点的训练数据分布不同,从而使各任务节点学习到不同的模型,且每个任务节点以及全局(global)的模型都由多个分量模型集成。该论文最关键与核心的地方在于将各任务节点学习到的模型进行聚合/通信,依据模型聚合方式的不同,可以将模型采用的算法分为client-server方法,和fully decentralized(完全去中心化)的方法(其实还有其他的聚合方法没,如另一篇论文提出的簇状聚合方法,我们这里暂时略过),其中这两种方法在具体实现上都可以替换为对代理损失函数的优化,不过我们这里暂时略过。 阅读全文
posted @ 2021-12-02 22:45 orion-orion 阅读(5631) 评论(3) 推荐(0) 编辑
摘要:联邦学习:按病态非独立同分布划分Non-IID样本我们在博文《联邦学习:按Dirichlet分布划分Non-IID样本》中已经介绍了按照Dirichlet分布划分non-IID样本。然而联邦学习最开始采用的数据划分方法却不是这种。这里我们重新回顾联邦学习开山论文[1],它所采用的的是一种病态独立同分布(Pathological Non-IID)划分算法。以下我们以CIFAR10数据集的生成为例,来详细地对该论文的数据集划分与采样算法进行分析。如果选择这种划分方式,需要指定则每个client上数据集所需要的标签类型数做为超参, 阅读全文
posted @ 2021-12-01 22:47 orion-orion 阅读(2645) 评论(3) 推荐(1) 编辑
摘要:联邦学习常用数据集今天开始跑联邦学习论文实验了,这里介绍一下论文的常用数据集(因为我的研究领域是联邦/分布式学习,所以下面列出的数据集可能偏向这方面,做其他方向的童鞋参考下就好)。 阅读全文
posted @ 2021-11-28 12:24 orion-orion 阅读(3406) 评论(1) 推荐(1) 编辑