A Comprehensive Survey on Transfer Learning(迁移学习研究综述)

0、摘要

目的:通过迁移不同但相关的源域所包含的知识,提高目标学习器在目标域上的学习性能
意义:在构建目标学习器时可以减少对大量目标域数据的依赖
本文主要内容:对已有的迁移学习进行调研,对迁移学习的机制和策略进行全面的总结和阐释,有助于读者更好地了解迁移学习的研究现状和思路。论文从数据和模型的角度回顾了40多种有代表性的迁移学习方法,特别是同质迁移学习方法。并简要介绍了迁移学习的应用。为了展示不同迁移学习模型的性能,我们使用了20多个有代表性的迁移学习模型进行了实验。

1、介绍

虽然传统的机器学习技术已经取得了巨大的成功,并在许多实际应用中得到了成功的应用,但它对于某些真实场景仍有一定的局限性。机器学习的理想场景是有大量标记的训练实例,训练数据与测试数据具有相同的分布。然而,收集大量的训练数据通常是昂贵的、耗时的,甚至在许多情况下是不现实的。半监督学习可以较少对大量标记数据的需求,在一定程度上解决这一问题。半监督方法通常只需要有限数量的标记数据,和大量的未标记数据来提高学习精度。但在许多情况下,未贴标签的实例也难以收集
迁移学习侧重于跨领域的知识迁移,是解决上述问题的一种有前途的机器学习方法。迁移学习受人跨领域转移知识能力的启发,旨在利用相关领域(称为源域)的知识来提高目标域的学习性能或减少目标领域所需的标记示例数量。值得一提的是,知识转移并不总是会给新的任务带来积极的影响。如果领域之间没有共同点,知识转移可能是不成功的。比如说以往的经验对学习新任务有负面影响,这样的现象被称为负迁移。同样,在迁移学习领域,如果目标学习器受到迁移知识的负面影响,也称为负迁移。负迁移是否会发生取决于几个因素,如源域和目标域之间的关联性,学习器跨域寻找可转移有益部分的能力等。
1)同质迁移学习方法,处理的是源域和目标域具有相同特征空间的情况。在同质迁移学习中,一些研究假设领域仅在边缘分布上不同。因此,他们通过校正样本的偏差或协变量位移来适应域。然而,这种假设在很多情况下并不成立。例如,在情绪分类问题中,一个词可能在不同的领域有不同的意义倾向。这种现象也被称为上下文特征偏差。为了解决这一问题,一些研究对条件分布进行了进一步的适应。
(2)异质迁移学习是指在不同域具有不同特征空间的情况下进行的知识迁移过程。除了分布适应外,异质性迁移学习还需要特征空间适应,这使得异质性迁移学习比同质迁移学习更加复杂。
文章主要关注同质迁移学习
文章结构:
第2部分阐明了迁移学习和其他相关机器学习技术的区别。
第3节介绍了本文中使用的符号和迁移学习的定义。
第4节和第5节分别从数据和模型的角度解释迁移学习方法。
第6节介绍迁移学习的一些应用。
第7节是实验和结果。

本文贡献:
(1)介绍并总结了40多种具有代表性的迁移学习方法,使读者对迁移学习有了全面的了解
(2)通过实验,比较了不同的迁移学习方法。直观地展示了二十多种不同方法的性能,并进行了分析,对读者在实践中选择合适的方法具有指导意义。

2、相关工作

介绍了与迁移学习相关的领域,并介绍了与迁移学习的联系和区别
(1)半监督学习
半监督学习是介于监督学习和非监督学习之间的一种机器学习任务和方法。通常,半监督方法利用大量的未标记实例和有限的标记实例来训练学习器。半监督学习放松了对标记实例的依赖,从而降低了昂贵的标记成本。注意,在半监督学习中,标记的和未标记的实例都是从相同的分布中抽取的。相反,在迁移学习中,源域和目标域的数据分布通常是不同的。许多迁移学习方法吸收了半监督学习技术。在迁移学习中还使用了半监督学习中的关键假设,即平滑假设、聚类假设和流形假设。值得一提的是,半监督迁移学习是一个有争议的术语。原因是标签信息在迁移学习中是否可用这个概念是模糊的,因为源域和目标域都可以涉及。
半监督学习的成立依赖于模型假设,当模型假设正确时,无类标签的样例能够帮助改进学习性能。半监督学习依赖的假设有以下三个:
平滑假设:位于稠密数据区域的两个距离很近的样例的类标签相似
聚类假设:当两个样例位于同一聚类簇时,它们在很大的概率下有相同的类标签
流行假设:将高维数据嵌入到低维流形中,当两个样例位于低维流形中的一个小局部邻域内时,它们具有相似的类标签
(2)多视图学习
多视图学习关注的是多视图数据的机器学习问题。视图代表一个独特的特征集。关于多个视图的一个直观的例子是,视频对象可以从两个不同的视角来描述,即图像信号和音频信号。简单地说,多视图学习从多个视角描述一个对象,从而产生丰富的信息。通过恰当地考虑各个方面的信息,学习器的学习性能可以得到提高。在多视图学习中有几种策略,如子空间学习、多核学习、联合训练等。在一些迁移学习方法中也采用了多视图技术。比如:
Zhang等人提出了一个多视图迁移学习框架,它强加了多个视图之间的一致性。
Yang和Gao将跨不同领域的多视图信息用于知识迁移。
Feuz和Cook在工作中引入了一种多视图迁移学习方法,在异构传感器平台之间迁移知识。
(3)多任务学习
多任务学习的思想是共同学习一组相关的任务。更具体地说,多任务学习是利用任务之间的相互联系,即兼顾任务间的相关性和任务间的差异性,从而强化每一个任务。这样,增强了每个任务的泛化性。迁移学习与多任务学习的主要区别在于前者迁移相关领域内的知识,而后者通过同时学习多个相关任务,让这些任务在学习过程中共享知识,利用多个任务之间的相关性来改进模型在每个任务的性能和泛化能力 。 换句话说,多任务学习对每一项任务的关注是平等的,而迁移学习对目标任务的关注多于对源任务的关注。迁移学习和多任务学习之间存在一些共性和联系。二者都旨在通过知识迁移来提高学习器的学习性能。此外,它们还采用了一些相似的构建模型的策略,如特征转换和参数共享等。请注意,一些现有的研究同时利用了迁移学习和多任务学习技术。例如:
Zhang等人的工作采用了生物图像分析的多任务和迁移学习技术。
Liu等人的工作提出了一个基于多任务学习和多源迁移学习人类动作识别框架。

3、概述

在本节中,为了方便起见,我们列出了本调查中使用的符号。并介绍了迁移学习的一些定义和分类,并进行了相关的调查。

3.1、符号

用||·||表示范数,用上标T来表示一个向量/矩阵的转置。其余如下
image

3.2、定义

(1)域定义:一个域D由两部分组成,即特征空间 X 和边缘分布 P ( X )。换句话说, D = {X , P ( X )} ,X表示实例集, X = { x ∣ x i ∈ X , 1 = 1 , 2 , . . . , n }。
域(Domain):数据特征和特征分布组成,是学习的主体
(2)任务定义:T由标签空间Y和决策函数f组成,比如 T = { Y , f }。决策函数f是隐式函数,从样本数据中学习得到。一些机器学习模型实际上输出预测的实例的条件分布。image在实践中,一个域拥有许多有标签的或没有标签信息的实例。比如源域 Ds对应的源任务为 Ts通过实例-标签对得出。如image对目标域的观察通常由大量未标记实例和/或有限数量的标记实例组成。
任务由目标函数和学习结果组成,是学习的结果
(3)迁移学习定义:给定源域 image和任务image,目标域image和任务image迁移学习利用源域内隐含的知识来提高目标域学习决策函数的性能
值得一提的是,对领域或任务的观察是一个广义的概念,通常被固定在有标签/无标签实例集或预先学习的模型中。迁移学习的目标是学习目标领域上更准确的决策函数。
迁移学习(Transfer Learning)是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务,
迁移学习领域的另一个常用术语是领域适应(domain adaptation)。领域适应是指通过适应一个或多个源域来迁移知识,提高目标学习器的学习性能。迁移学习往往依赖于领域适应过程,该过程试图减少领域之间的差异

3.3、迁移学习分类

迁移学习有几个分类标准。
(1)按迁移学习问题可以分为三类:即转导 (transductive)迁移学习、归纳 (inductive)迁移学习和无监督迁移学习。这三个类别可以从标签设置的角度来解释。
转导迁移学习:是指标签信息只来自源域的情况。
归纳迁移学习:目标域实例的标签信息是可用的。
无监督迁移学习: 如果标签信息在源域和目标域都是未知的
(2)另一种分类是基于源域和目标域特征空间以及标签空间之间的一致性
同质迁移学习:源域和目标域特征空间与标签空间都相同
异质迁移学习 源域和目标域特征空间与标签空间不都相同
(3)根据论文[2],迁移学习方法可以分为四类:基于实例的、基于特征的、基于参数的和基于关系的
基于实例的迁移学习方法主要基于实例加权策略。
基于特征的方法对原始特征进行变换,生成新的特征表示;可再分为基于特征的非对称迁移学习和基于特征的对称迁移学习。非对称方法转换源域特征以匹配目标特征。而对称方法则试图找到一个共同的潜在特征空间,然后将源域特征和目标域特征转化为一种新的特征表示。
基于参数的迁移学习方法在模型/参数层次上迁移知识。
基于关系的迁移学习方法主要关注关系领域中的问题。这些方法将源域中学习到的逻辑关系或规则传输到目标域。
为了更好地理解,下图展示了上述迁移学习的分类
image
请注意,本文并没有严格遵循上述分类。在接下来的两部分中,我们将从数据和模型的角度来解释迁移学习方法。粗略地说,基于数据的解释涵盖了上述基于实例的迁移学习方法和基于特征的迁移学习方法,但是从更广泛的角度出发的。基于模型的解释包括上述基于参数的方法。由于涉及基于关系的迁移学习的研究相对较少,且代表性的迁移学习方法在[2]、[4]中得到了很好的介绍,因此本调查并不关注基于关系的迁移学习方法

4、基于数据的解释

许多迁移学习方法,特别是基于数据的迁移学习方法,侧重于通过数据的调整和转换来转移知识。图3从数据的角度展示了这些方法的策略和目标。如下图所示,空间适应 (spaceadaptation)是目标之一。这一目标在异质迁移学习场景中需要得到满足。在本文中,我们更多地关注同质迁移学习,这个场景中的主要目标是减少源域实例和目标域实例之间的分布差异。此外,一些高级方法试图在适应过程中保留数据属性。从数据的角度来看,实现这一目标通常有两种策略,即实例加权和特征转换。在本节中,我们将根据下图所示的策略,依次介绍一些相关的迁移学习方法。
image

4.1、实例加权策略

让我们首先考虑一个简单的场景,其中有大量的标记源域和少量的目标域数据,并且两个域的数据只有样本的分布不一致(如:image
)。例如,让我们考虑我们需要建立一个模型来诊断老年人占多数的特定地区的癌症。给出有限的目标域实例,并且可以从年轻人占多数的另一个地区获得相关数据。直接迁移其他地区的数据可能并不有效,因为存在边际分布差异,而且老年人比年轻人患癌症的风险更高。在这种情况下,考虑适应边际分布是很自然的。一个简单的想法是在损失函数中分配源域实例的权重。加权策略方程如下:
image
学习任务的目标函数:
image
核均值匹配(Kernel Mean Matching )[5]是Huang等人提出的,它通过在重构核希尔伯特空间 (RKHS)中匹配源域和目标域实例的均值来解决上述未知比值βi的估计问题。
其余研究
(1)一些研究试图估算权重。例如,Sugiyama等人提出了一种称为Kullback-Leibler重要性估计程序(KLIEP)[6]的方法。KLIEP依赖于kullbackleibler (KL)散度的最小化,并包含了一个内置的模型选择过程。在研究权值估计的基础上,提出了基于实例的迁移学习框架或算法。例如,Sun等人提出了一个多源框架,称为多源域适应的两阶段加权框架(2SW-MDA)。
(2)除了直接估计权重参数外,迭代调整权重也是有效的。关键是设计一种机制来减少对目标学习者有负面影响的实例的权重。一项代表性的工作是TrAdaBoost框架[4](该框架是AdaBoost的扩展)。TrAdaBoost将AdaBoost扩展到迁移学习场景,设计了一种新的加权机制,以减少分布差异的影响。且一些研究进一步扩展了TradaBost。
(3)一些方法以启发式(heuristic way)的方式实现实例加权策略。“Instance Weighting for Domain Adaptation in NLP”一文提出了一个通用的加权框架。该框架的目标函数有3项,旨在最小化3类实例的交叉熵损失。

4.2、特征转换策略

在特征层面的迁移学习。因为在不同的域上的特征可能不同,所以需要对不同域上的特征映射到新的特征表示
基于特征的方法通常采用特征转换策略。例如,考虑一个跨域文本分类问题。任务是使用相关领域的标记文本数据来构造目标分类器。在这种情况下,一个可行的解决方案是通过特征转换找到共同的潜在特征(如潜在主题),并将其作为传递知识的桥梁。基于特征的方法将每个原始特征转化为新的特征表示,用于知识转移。构造一个新的特征表示的目标包括最小化边缘和条件分布差异,保持数据的性质或潜在结构,以及找到特征之间的对应关系。特征变换的操作可以分为三种类型,即特征增强、特征约简和特征对齐。此外,特征约简还可以进一步分为特征映射、特征聚类、特征选择和特征编码等几种类型。在算法中设计的一个完整的特征转换过程可能包含多个操作。

4.2.1、分布差异度量

特征转换的一个主要目标是减少源域实例和目标域实例的分布差异。因此,如何有效地度量域之间的分布差异或相似性是一个重要的问题。
被称为最大平均差异(MMD)的测量方法在迁移学习领域被广泛应用,其表述如下:
image
MMD可以通过使用内核技巧很容易地计算出来。简单地说,MMD通过计算RKHS中实例的平均值的距离来量化分布差异。请注意,上述KMM实际上通过最小化域之间的MMD距离来产生实例的权重。
下表列出了一些常用的度量标准和相关的算法。除此之外、在迁移学习中还采用了其他一些测量标准,包括瓦瑟斯坦距离[59]、[60]、中心力矩差[61]等。一些研究主要集中在优化和改进现有的测量方法上。以MMD为例。Gretton等人提出了MMD的多核版本,即MK-MMD [62],它利用了多个内核。此外,Yan等人提出了MMD [63]的加权版本,试图解决类权重偏差的问题。
image

4.2.2、特征增强

针对源域和目标域上的特征不同,可以对原来的特征进行一定的增广,从而获得三类不同的特征 (1) 通用特征 (2) 源域特有特征 (3) 目标域特有特征。
特征增强操作在特征变换中得到了广泛的应用,特别是在对称特征变换中。具体来说,特征增强的实现方法有特征复制和特征叠加两种。为了更好地理解,我们从一个简单的迁移学习方法开始,它是建立在特征复制的基础上。
Daum’e的作品提出了一种简单的区域自适应方法,即 Feature Augmentation method (FAM)[64]。该方法通过简单的特征复制对原始特征进行变换。具体来说,在单源迁移学习场景中,特征空间被扩大到原来的3倍大小。新特征表示包括一般特征、源域特定特征和目标域特定特征。请注意,对于已转换的源域实例,其特定于目标域的特征被设置为零。类似地,对于转换后的目标域实例,它们特定于源域的特征被设置为零。FAM的新特征表示如下
image

4.2.3、特征映射

通过特征映射来从源域和目标域来映射得到一些分布相近的特征。
在传统机器学习领域,基于映射的特征提取方法有很多可行的,如主成分分析(PCA)[68]和核化-PCA (KPCA)[69]。但这些方法主要关注的是数据方差,而不是分布差异。为了解决分布差异问题,提出了一些用于迁移学习的特征提取方法。让我们首先考虑一个简单的场景,其中域的条件分布几乎没有差别。在这种情况下,可以使用以下简单的目标函数找到一个映射进行特征提取。
image

4.2.4、特征聚类

特征聚类旨在寻找原始特征的更抽象的特征表示。虽然它可以看作是一种特征提取的方法,但它不同于上述基于映射的提取。以使用聚类算法将具有较大依赖关系( 冗余度高) 的特征聚集到一起。特征聚类 ,其基本思想是根据特征与特征之间相关性及特征与特征簇之间的相关性将特征集划分成多个簇群。

4.2.5、特征选择

特征选择,目标是在源域和目标域中选择出作用相同的特征出来,这些特征可以作为知识迁移的桥梁。
特征选择是另一种进行特征缩减的操作,用于提取中心特征。作为一种降维技术,特征选择旨在通过去除不相关、冗余或嘈杂的特征,从原始特征中选择一小部分相关特征。特征选择通常可以带来更好的学习性能、更高的学习精度、更低的计算成本和更好的模型可解释性。
特征选择技术的目标包括:
(1)简化模型,使研究人员/用户更容易解释它们
(2)更短的培训时间
(3)避免维度的诅咒
(4)通过减少过度拟合来增强泛化

4.2.6、特征编码

这个方法就是利用自编码器来学习一个新的特征编码,然后所有样本的特征转换到自编码器学到的特征编码这个上特征空间,再在这个新的空间里学习模型。
除了特征提取和选择外,特征编码也是一种有效的工具。例如,在深度学习领域经常采用的自动编码器,可以用于特征编码。自动编码器由编码器和解码器组成。编码器试图产生输入的更抽象的表示,而解码器的目标是映射该表示并最小化重构误差。自动编码器可以堆叠起来构建一个深度学习体系结构。一旦一个自动编码器完成了训练过程,另一个自动编码器就可以堆叠在它的顶部。然后,通过使用上层自动编码器的编码输出作为其输入,对新添加的自动编码器进行训练。这样,就可以构建深度学习体系结构。

4.2.7、特征对齐

分别在源域和目标域计算隐式特征,并且研究这些隐式特征如何可以在两个域上进行对齐。
特征增强和特征缩减主要集中在特征空间中的显式特征上。相反,除了显式特征外,特征对齐还主要关注一些隐式特征,如统计特征和光谱特征。因此,特征对齐在特征转换过程中可以发挥不同的作用。例如,显式特征可以对齐来生成一个新的特征表示,或者隐式特征可以对齐来构造一个满意的特征变换。
有几种特征可以对齐,包括子空间特征、光谱特征和统计特征。

5、基于模型的解释

迁移学习方法也可以从模型的角度来解释。 下图显示了相应的策略和目标。 迁移学习模型的主要目标是在目标域上做出准确的预测结果,例如分类或聚类结果。 请注意,迁移学习模型可能由一些子模块组成,例如分类器、提取器或编码器。 这些子模块可能扮演不同的角色,例如,特征适应或伪标签生成。 在本节中,根据下图所示的策略,依次介绍一些相关的迁移学习方法。
image

5.1、模型控制策略

从模型的角度来看,一个自然的想法是直接将模型级别的正则化器添加到学习器的目标函数中。 这样,预先获得的源模型中包含的知识可以在训练过程中迁移到目标模型中。例如:段立新教授上角标中的 应该分别表示目标域的,标签的,未标签的,源域的于“Domain adaptation from multiple sources via auxiliary classifiers”“ Domain Adaptation From Multiple Sources: A Domain-Dependent Regularization Approach”中提出的一般框架domain adaptation machine(DAM),其用于多源迁移学习。DAM的目标是借助于一些预先设定的基本分类器,分别在多个源域上训练,为目标域构造一个鲁棒的分类器。目标函数为
image
上角标中的 T、L、U、S应该分别表示目标域的,标签的,未标签的,源域的
(1)Consensus regularizer 共识正则化器
Transfer learning from multiple source domains via consensus regularization”一文的工作提出了consensus regularization framework(CRF)。CRF被设计用于多源迁移学习且目标域实例没有被标签。该框架构造了对应于每个源域的image个分类器,这些分类器需要在目标域上达成共识。每个源域分类器image的目标函数与DAM相似,表示为 :
image
共识正则化器不仅可以增强所有分类器的一致性,还可以降低目标域预测的不确定性。 作者基于逻辑回归实现了这个框架。 DAM和CRF之间的区别在于DAM显式构建目标分类器,而CRF根据源分类器达成的共识进行目标预测。
(2)Domain-dependent regularizer 依赖域的正则化器
Fast-DAM是DAM的一种特定算法。根据流形假设和基于图的正则化器,fast-DAM 设计了一个依赖域的正则化器。 目标函数为:
image
“Domain adaptation from multiple sources via auxiliary classifiers”一文还基于ε-insensitive的损失函数在上述目标函数中引入并添加了一个新项,使得所得模型具有较高的计算效率。
(3)Domain-dependent regularizer + universum regularizer 依赖域的正则化器 + 通用正则化器
Univer-DAM是fast-DAM的一个拓展。它的目标函数包含一个额外的正则化器,即Universum正则化器。 这个正则化器通常使用一个称为Universum的附加数据集,其中实例不属于正类或负类。 作者将源域实例视为目标域的 Universum,Univer-DAM的目标函数为:
image
与fast-DAM区别主要在于多了第二项,也就是Universum正则化器。与fast-DAM类似,ε-insensitive的损失函数也可在该模型中利用。

5.2、参数控制策略

参数控制策略主要关注模型的参数。例如,在物体分类的应用中,来自源已知类别的知识可以通过形状和颜色等对象属性迁移到目标类别。属性先验,即每个属性对应的图像特征的概率分布参数,可以从源域中学习到,然后用来促进学习目标分类器。模型的参数实际上反映了模型学习到的知识。因此,可以在参数层级进行知识迁移。

5.2.1、参数共享

控制参数的一种直观方式是直接将源学习器的参数共享给目标学习器。参数共享被广泛采用,尤其是在基于网络的方法中。 例如,如果我们有一个用于源任务的神经网络,我们可以冻结(或者说,共享)它的大部分层,并且只微调最后几层以生成目标网络。
文章还提及了基于矩阵分解的参数共享(NLP方向),matrix trifactorization-based classification framework (MTrick)。

5.2.2、参数限制

另一种参数控制类型策略是限制参数。 与强制模型共享部分参数的参数共享策略不同,参数限制策略只要求源模型和目标模型的参数相似。
文章以类别学习category learning的方法为例。

5.3、模型集成策略

在与产品评论相关的情感分析应用程序中,来自多个产品域的数据或模型是可用的,并且可以用作源域。将数据或模型直接组合到单个域中可能不会成功,因为这些域的分布彼此不同。模型集成是另一种常用的策略。 该策略旨在结合多个弱分类器进行最终预测。 一些前面提到的迁移学习方法已经采用了这种策略。 例如,TrAdaBoost 和 MsTrAdaBoost 分别通过投票和加权来集成弱分类器。

5.4、深度学习技术

深度学习方法在机器学习领域尤其流行。许多研究者利用深度学习技术来构建迁移学习模型。例如,第4.2.6节中提到的SDA和mSLDA方法利用了深度学习技术。在本小节中,我们将专门讨论与深度学习相关的迁移学习模型。所引入的深度学习方法分为两种类型,即非对抗性(或传统)方法和对抗性方法

5.4.1、传统深度学习

如前所述,自动编码器经常被用于深度学习领域。除了SDA和mSLDA外,还有其他一些基于重构的迁移学习方法。例如,Zhuang等人的论文提出了一种称为深度自动编码器(TLDA)[44]迁移学习的方法。
Tzeng等[136]在深度神经网络中增加了一个自适应层和差异损失,提高了性能。此外,Long等人进行了多层适应并利用了多核技术,提出了一种称为深度适应网络(DAN)[137]的体系结构。
Long等人进一步扩展了上述DAN方法,并提出了DAN框架[141]
还有其他一些令人印象深刻的作品。例如,Long等人构建了领域自适应的残差转移网络,这是由深度残差学习[146]驱动的。
深度学习技术也可用于多源迁移学习。例如,Zhu等人的工作提出了一个被称为多特征空间自适应网络(MFSAN)[153]的框架。

5.4.2、对抗性深度学习

对抗性学习的思想可以集成到基于深度学习的迁移学习方法中。如上所述,在DAN框架中,网络Θ和内核κ玩了一个极大极小博弈,这反映了对抗性学习的思想。然而,DAN框架在对抗性匹配方面与传统的基于GAN的方法略有不同。在DAN框架中,在最大博弈中只有少数参数需要优化,这使得优化更容易达到平衡。
在GAN的激励下,许多迁移学习方法是基于一个良好的特征表示几乎不包含实例原始域的区别信息的假设建立的。例如,Ganin等人的工作提出了一种被称为域-对抗神经网络(DANN)的深度体系结构,用于域自适应[154],[155]。DANN假设没有带标记的目标域实例可以处理。它的体系结构由特征提取器、标签预测器和域分类器组成
曾等人的工作提出了一个统一的对抗性领域自适应框架[156]。Shen等人采用瓦瑟斯坦距离进行域适应[59]。Hoffman等人采用周期一致性损失法来确保[157]的结构和语义一致性。Long等人提出了条件域对抗性网络(CDAN),迁移学习例如,Wang等人提出了一种基于极大极小值的方法来选择高质量的源域数据[164]。Chen等人研究了对抗性领域自适应中的可转移性和可别性,并提出了一种频谱惩罚方法来提高现有的对抗性迁移学习方法[165]。

6、应用

在本节中,主要关注医学、生物信息学、交通和推荐系统等特定领域的迁移学习应用,而不是关注一般的文本相关或图像相关的应用

6.1、医疗应用

医学成像在医学领域发挥着重要的作用,是一种强大的诊断工具。医疗图像是由特殊的医疗设备生成的,它们的标签往往依赖于经验丰富的医生。因此,在许多情况下,收集足够的训练数据是昂贵且困难的。迁移学习技术可用于医学成像分析。一种常用的迁移学习方法是在源域上预训练神经网络(例如,ImageNet,这是一个包含超过14000张注释图像的图像数据库),然后根据目标域的实例对其进行微调。
例如,Maqsood等人完善了AlexNet [138]用于检测阿尔茨海默病[167]。他们的方法有以下四个步骤。首先,通过进行对比度拉伸操作,对来自目标区域的MRI图像进行预处理。其次,AlexNet架构[138]在ImageNet[166](即源域)上进行了预训练,作为学习新任务的起点。第三,AlexNet的卷积层是固定的,最后三个全连接层被新的层取代,包括一个软max层、一个全连接层和一个输出层。最后,通过对阿尔茨海默氏症数据集[168](即目标域)的训练来完善改进后的AlexNet。实验结果表明,该方法对多类分类问题(即阿尔茨海默氏症阶段检测)具有最高的精度。
同样,Shin等人完善了预先训练好的深度神经网络来解决计算机辅助检测问题[169]。Byra等人利用迁移学习技术来帮助评估膝关节骨关节炎[170]。除了成像分析之外,迁移学习在医疗领域还有一些其他的应用程序。例如,Tang等21人的工作结合了主动学习和领域自适应技术,用于各种医疗数据[171]的分类。Zeng等人利用迁移学习自动编码ICD-9代码,用于描述患者的诊断[172]

6.2、生物信息学应用

生物序列分析是生物信息学领域的一个重要任务。由于对某些生物体的理解可以转移到其他生物体,迁移学习可以应用于促进生物序列分析。施威克特等人以mRNA剪接位点预测问题为例,分析了迁移学习方法[173]的有效性。在他们的实验中,源域包含了来自一个研究充分的模型生物的序列实例,即: C. 秀丽隐杆线虫,而目标生物体包括另外两种线虫(即, C. 雷内和太平洋太平洋), D. 黑腹果蝇和植物 A. 拟南芥。许多迁移学习方法,如FAM [64]和KMM [5]的变体,被相互比较。实验结果表明,迁移学习可以帮助提高分类性能。
在生物信息学领域的另一个广泛遇到的任务是基因表达分析,。在这个应用程序中,一个主要的挑战是数据稀疏性问题,因为通常已知关联的数据很少。迁移学习可以通过提供额外的信息和知识来利用这个问题。例如,佩特格罗索等人[174]提出了一种基于标签传播算法(LPA)[175]的迁移学习方法来分析和预测基因-表型关联。LPA利用蛋白质-蛋白质相互作用(PPI)网络和初始标记,基于在PPI网络中连接的基因应该具有相似的标记的假设,来预测目标关联。作者通过结合多任务和迁移学习技术,扩展了LPA

6.3、交通应用

从一个特定位置拍摄的图像经常会因为不同的天气和光照条件而发生变化。为了解决这个问题,Di等人提出了一种方法,试图传输在不同条件下从同一位置拍摄的图像的信息,[178]。为了解决这个问题,Di等人提出了一种方法,试图传输在不同条件下从同一位置拍摄的图像的信息,[178]。在第一步中,通过一个预先训练的网络来提取图像的特征表示。在第二步中,采用特征变换策略来构造一个新的特征表示。具体来说,对提取的特征进行降维算法(即偏最小二乘回归[179]),生成低维特征。然后,学习一个变换矩阵,以最小化降维数据的域差异。然后,采用子空间对齐操作来进一步减少域的差异。请注意,虽然不同条件下的图像通常有不同的外观,但它们往往有相似的布局结构。因此,在最后一步中,首先建立测试图像与检索到的最佳匹配图像之间的跨域稠密对应关系,然后通过马尔可夫随机场模型[180],[181]将最佳匹配图像的注释传递到测试图像中。
迁移学习也可以应用于驾驶员行为建模的任务。在这个任务中,每个驱动程序的足够的个性化数据通常不可用。在这种情况下,将历史数据中包含的知识传输给新涉及的驱动程序是一个很有前途的替代方案。例如,Lu等人提出了一种在变道场景[182]中的驾驶员模型自适应方法。源域包含描述源驱动程序行为的足够数据,而目标域有一些关于目标驱动程序的数据。实验结果表明,即使在目标域数据很少的情况下,迁移学习方法也能帮助目标驱动程序。此外,结果还表明,当目标实例的数量非常小或非常大时,其方法的优越性并不明显。这可能是因为在很少的目标域实例中无法准确地找到跨域之间的关系,并且在有足够的目标域实例的情况下,迁移学习的必要性就减少了。
此外,迁移学习在交通领域还有一些其他的应用。例如,Liu等人将迁移学习应用于驾驶员姿态识别[186]。Wang等人在车辆类型识别[187]的迁移学习中采用了正则化技术。迁移学习还可以用于异常活动检测[188]、[189]、交通标志识别[190]等。

6.4、推荐系统应用

由于信息量的快速增加,如何有效地向个人用户推荐个性化的内容是一个重要的问题。在推荐系统领域,一些传统的推荐方法,如基于因式分解的协同过滤,往往依赖于用户-项目交互矩阵的因式分解来获得预测函数。这些方法通常需要大量的训练数据来提出准确的建议。然而,必要的训练数据,例如历史交互数据,在现实场景中往往是稀疏的。此外,对于新的注册用户或新的项目,传统的方法往往很难做出有效的建议,这也被称为冷发问题。
认识到推荐系统中存在的上述问题,提出了各种基于实例、基于特征和基于特征的迁移学习方法。这些方法试图利用来自其他推荐系统(即源域)的数据来帮助构建目标域中的推荐系统。基于实例的方法主要关注于将不同类型的实例。基于特征的方法通常会利用和转移来自潜在特征空间的信息。还有其他一些关于跨领域推荐[194],[195],[196],[197]的研究。

6.5、其他应用

通信应用:除了WiFi定位任务[2],[36]外,迁移学习也被应用于无线网络应用。例如,Bastug等人提出了缓存机制[201],从设备间的交互中提取的知识转移到目标域。此外,一些研究也集中在节能问题上。Li等人的工作提出了一种利用传输学习专长[202]的蜂窝无线电接入网络的节能方案。赵和格蕾丝的工作将迁移学习应用于拓扑管理,以降低能耗[203]
城市计算应用:城市计算拥有大量的城市相关数据,在交通监控、医疗保健、社会保障等方面是一个很有前途的研究方向。迁移学习已被应用于缓解许多城市计算应用中的数据稀缺问题。例如,Guo等人[204]提出了一种连锁店网站推荐方法,该方法利用语义相关领域(如目标城市的其他城市和目标城市的其他连锁城市)到目标城市的知识。Wei等[205]提出了一种灵活的多模态迁移学习方法,该方法将知识从具有足够的多模型数据和标签的城市转移到目标城市,以缓解数据稀疏性问题。迁移学习已被应用于手势识别[206]、人脸识别[207]、活动识别[208]、语音情绪识别[209]等识别任务中。此外,迁移学习的专业知识也被纳入了其他一些领域,如情绪分析[28]、[96]、[210]、欺诈检测[211]、社交网络[212]、高光谱图像分析[54]、[213]。

7、实验

迁移学习技术已成功地应用于许多实际应用中。在本节中,我们进行了23个实验来评估一些不同类别的代表性迁移学习模型[214]在两个主流研究领域,即对象识别和文本分类的性能。首先介绍了这些数据集。然后,给出了实验结果和进一步的分析。

7.1、数据集和预处理

在实验中研究了三个数据集,即Office-31, Reuters-21578, and Amazon Reviews。为了简单起见,我们将重点关注分类任务。预处理数据集的统计信息如下图所示
image
(1)Amazon Reviews:其中包含来自Amazon.com的四个领域(书籍、厨房、电子产品和dvd)的产品评论。这四个领域的每个评论都有一个文本和从0到5的评级。在实验中,小于3的比率被定义为负,其他比率被定义为正。我们计算了所有评论中每个单词出现的频率。然后,选择频率最高的5000个单词作为每次评审的属性。通过这种方式,我们最终有1000个正实例,1000个负实例,以及每个域中大约5000个未标记的实例。在实验中,四个域中的每两个被选择生成12个任务。
(2)Reuters-21578:是一个用于文本分类的数据集,它具有层次结构。该数据集包含5个顶级类别(交换、组织、人员、地点、主题)。在外部实验中,我们使用前三大类别的组织、人和地点来生成三个分类任务(组织vs人、组织vs地点和人vs地点)。在每个任务中,对应的两个类别中的子类别分别分为两部分。然后,将合成的四个部分作为组成部分,形成两个域。每个域大约有1000个实例,每个实例大约有4500个特性。具体来说,以任务组织与人为例,一部分来自组织,一部分来自人,然后合并形成源域;类似地,剩下的两部分构成了目标域。请注意,这三个类别中的实例都被贴上了标签。为了生成未标记的实例,将从数据集中选择已标记的实例,并忽略它们的标签
(3)Office-31:是一个用于文本分类的数据集,它具有层次结构。该数据集包含5个顶级类别(交换、组织、人员、地点、主题)。在外部实验中,我们使用前三大类别的组织、人和地点来生成三个分类任务(组织vs人、组织vs地点和人vs地点)。在每个任务中,对应的两个类别中的子类别分别分为两部分。然后,将合成的四个部分作为组成部分,形成两个域。每个域大约有1000个实例,每个实例大约有4500个特性。具体来说,以任务组织与人为例,一部分来自组织,一部分来自人,然后合并形成源域;类似地,剩下的两部分构成了目标域。请注意,这三个类别中的实例都被贴上了标签。为了生成未标记的实例,将从数据集中选择已标记的实例,并忽略它们的标签

7.2、实验设置

实验比较了一些具有代表性的迁移学习模型。具体来说,在数据集Office-31上执行了8种算法来解决目标识别问题。此外,在数据集Reuters上进行了14种算法来解决文本分类问题。在情绪分类问题中,在Amazon Reviews上执行了11种算法。分类结果通过准确性进行评价,其定义如下:
image
其中,Dtest为测试数据,y为真值分类标签;f (x)为预测的分类结果。请注意,一些算法需要基类定义符。在这种情况下,实验中采用具有线性核的SVM作为基分类器。此外,对源域实例都进行了标记。对于已执行的算法(TrAdaBoost除外),目标域实例是不被标记的。每个算法都被执行了三次,并以平均结果作为我们的实验结果。
The evaluated transfer learning models include:: HIDC
[93], TriTL [123], CD-PLSA [91], [92], MTrick [122], SFA
[106], mSLDA [98], [99], SDA [96], GFK [102], SCL [94], TCA
[36], [78], CoCC [41], JDA [38], TrAdaBoost [31], DAN [137],
DCORAL [148], MRAN [152], CDAN [158], DANN [154],
[155], JAN [147], and CAN [151].

7.3、实验结果

在本小节中,我们总共比较了三个数据集上的20多个算法。所有算法的参数都被设置为原始论文中提到的默认值或推荐值。
(1)下图显示了在Amazon Reviews(亚马逊评论)上的实验结果。基线是一个只在源域上训练的线性分类器(这里我们直接使用论文[107]的结果)。当源域是电子域或厨房时,大多数算法的性能相对较好,这说明这两个域可能比其他两个域包含更多的可转移信息。此外,还可以观察到HIDC、SCL、SFA、MTrick和SDA在所有12个任务中都表现良好且相对稳定。同时,其他算法,特别是mSLDA、CD-PLSA和TriTL,都相对不稳定;它们的性能在大约20%的范围内波动。TriTL在源域为厨房的任务上具有相对较高的准确性,但在其他任务上的准确性相对较低。TCA、mSLDA和CD-PLSA算法在所有任务上都具有相似的性能,平均准确率约为70%。在性能良好的算法中,HIDC和MTrick是基于特征缩减(特征聚类),而其他的算法则是基于特征编码(SDA)、特征对齐(SFA)和特征选择(SCL)。这些策略是目前基于特征的迁移学习的主流。
image
(2)下图给出了Reuter-21578的比较结果(这里我们直接使用了[78]和[41]论文中的基线和CoCC的结果)。基线是一个正则化的最小二乘回归模型,只训练在标记的目标域实例[78]上。可以观察到,大多数算法的性能在 Orgs vs Places Orgs vs People 都相对较好。People vs Places较差。这一现象表明,People vs Places之间的差异可能相对较大。TrAdaBoost在本实验中具有相对较好的性能,因为它使用了目标域中实例的标签来减少分布差异的影响。此外,HIDC、SFA和MTrick算法在三个任务中具有相对一致的性能。这些算法在之前的亚马逊评论实验中也表现得很好。此外,在人与地点方面,表现最好的两项算法是CoCC和TrAdaBoost。
image
(3)在第三个实验中,七个基于深度学习的迁移学习模型(即丹,DCORAL,MRAN,CDAN,DANN,简和可以)和基线(即Alexnet [138],[140]预训练ImageNet [166]然后直接训练目标域)执行数据集Office-31(这里我们直接使用CDAN的结果,可以和基线从原始论文的[137],[147],[151],[158]).ResNet-50 [144]作为这三种模型的骨干网络。实验结果如下图所示,这7种算法都具有良好的性能,特别是在任务D→W和W→D上,其准确率非常接近100%。这一现象反映了基于深度学习的方法的优越性,与摄像头与DSLR的差异小于摄像头/DSLR与亚马逊的差异相一致。显然,CAN的性能优于其他六种算法。在这6个任务中,DANN的性能与DAN相似,且优于DCORAL,说明了其有效性和实用性
image
值得一提的是,在上述实验中,一些算法的性能并不理想。其中一个原因是,我们使用了在算法的原始论文中提供的默认参数设置,这可能不适合我们选择的数据集。例如,GFK最初是为对象识别而设计的,我们在第一个实验中直接将其应用到文本分类中,结果不令人满意(平均准确率约为62%)。以上实验结果仅供参考。这些结果表明,一些算法可能不适用于某些领域的数据集。因此,在研究过程中选择合适的算法作为基线是很重要的。此外,在实际应用中,也需要找到一个合适的算法。

8、总结与展望

总结:本文从数据和模型的角度总结了迁移学习的机制和策略。该调查给出了迁移学习的明确定义,并设法使用一个统一的符号系统来描述大量具有代表性的迁移学习方法和相关工作。我们基本上介绍了基于数据的解释和基于模型的解释的迁移学习的目标和策略。基于数据的解释介绍了目标、策略和一些从数据的角度的迁移学习方法,类似地,基于模型的解释介绍了的机制和策略(从模型层面的迁移学习)。并介绍了迁移学习的应用。最后,对对象识别和文本分类在两个主流领域的代表性迁移学习模型的性能进行了实验评价。并对这些模型进行了比较,这反映了迁移学习模型的选择是一个重要的研究课题,也是实际应用中的一个复杂问题。
展望:在迁移学习领域的未来研究有几个方向。首先,迁移学习技术可以进一步探索和应用于更广泛的应用。需要新的方法来解决更复杂场景下的知识转移问题。例如,在现实场景中,有时与用户相关的源域数据来自另一家公司。在这种情况下,如何在保护用户隐私的同时转移源域中包含的知识是一个重要的问题。其次,如何衡量跨领域的可转移性,避免负转移也是一个重要的问题。虽然已经有关于负转移的研究,但负转移仍需要进一步的系统分析。第三,迁移学习的可解释性也需要进一步研究[216]。最后,可以进一步进行理论研究,为迁移学习的有效性和适用性提供理论支持。迁移学习作为机器学习中一个流行和有前途的领域,与传统机器学习相比,具有更少的数据依赖和更少的标签依赖等优势。我们希望我们的工作能帮助读者更好地理解研究的现状和研究思路。

9、思维导图

image

posted @ 2023-02-12 11:27  秦0710  阅读(912)  评论(0编辑  收藏  举报