小样本学习,阿里做得比较早,但是效果未知——小样本有3类解决方法(算法维度):迁移学习、元学习(模型基础上学习模型)、度量学习(相似度衡量,也就是搜索思路),数据维度还有GAN

http://www.jsjkx.com/CN/article/openArticlePDF.jsp?id=18723

 

问题定义

人类非常擅长通过极少量的样本识别一类物体,比如小孩子只需要书中的一些图片就可以认识什么是“斑马”,什么是“犀牛”。在这种人类的快速学习能力的启发下,我们希望模型在大量类别中学会通过少量数据正确地分类后,对于新的类别,我们也只需要少量的样本就能快速学习,这就是Few-shot learning 要解决的问题。
Few-shot learning是meta learning在监督学习领域的一种应用场景,我们training阶段将数据集按类别分解为不同的meta-task,去学习类别变化的情况下模型的泛化能力,在testing阶段,面对全新的类别以及每个类别仅有少量数据,不需要变动已有的模型,就可以完成分类。
形式化来说,few-shot的训练集中包含了大量的类别,每个类别中有少量样本。在训练阶段,会在训练集中随机抽取C个类别,每个类别K个样本(总共C×K个数据)构建一个meta-task,作为模型的支撑集(Support set)输入;再从这C个类中抽取一批样本作为模型的预测对象(Query set或者Batch set)。即要求模型从C×K个数据中学会如何区分这C个类别,这样的任务被称为C-way K-shot问题。

 

【小样本学习】小样本学习概述

 星火燎原 发表于 2020-06-18 10:57:35
 
【摘要】 近年来小样本识别在计算机视觉领域得到广泛关注。本文简要介绍了小样本学习任务并对当今的主流方法进行了归类。最后指出了小样本学习领域的一些前沿的研究方向。

        随着深度学习技术的不断发展,图像识别的精度不断提升。深度学习取得成功的关键因素之一是大规模的数据进行模型训练。与机器相比,人类却可以通过少量样本快速学习新事物。小样本学习模拟人类快速学习新事物的能力,主要研究如何通过少量样本学习识别模型。由于在大多数场景下,图像的获取与标注是十分困难的,近年来小样本学习逐渐成为当前的热点研究问题。本文从小样本学习定义,当前主流方法以及小样本学习的前沿方向三个角度,对小样本学习进行全面的分析。

1. 小样本学习定义

        小样本学习主要研究如何通过少量样本学习识别模型。目前学术界普遍研究的是N-way-K-shot问题。即进行N个类别的识别,每类有K个样本。通常情况下K比较小。当前的小样本识别方法主要利用了元学习的方法,通过大量的辅助数据学习元知识,迁移到目标任务中。因此,在小样本学习中,还包含与目标任务相似的其他任务的数据,如下图所示。

 2. 小样本学习主流方法

        本节内容从数据,模型,优化三个方面对当前的主流方法进行划分。

(1)数据:小样本学习的根本问题在于目标任务数据量少,难以训练出鲁棒的识别模型。因此,扩充数据可以从根本上解决小样本问题。目前应用较广的扩充数据的方法包括传统的数据增强方法(如旋转,平移,缩放等);不同前景背景拼接,生成多样化图像;相似类的类内变化迁移;从弱标注数据中筛选出与目标任务相似的样本(半监督场景);图像生成方法(GAN, VAE)等生成多样化的图像或特征。

 

(2)模型:从模型的角度解决小样本问题,其关键在于如何利用辅助数据学习鲁棒的,泛化性强的模型。[a] 多任务学习模型:该类方法主要利用了不同任务之间的相关性,共享底层特征,然后针对不同任务学习任务独有特征。通过参数共享的方法,可以有效减少新任务需要学习的参数数量。 [b] 度量学习模型:该类方法的主要思想是通过辅助任务学习泛化性强的度量空间,在不更新参数的情况下可以适用到新任务中。由于该类方法无需更新模型参数,在一定程度上可以避免目标任务过拟合现象。目前该类方法在小样本识别中可以达到相对较好的性能,研究比较广泛。[c] 记忆模型:该类方法主要模拟了人的记忆机制,通过在辅助任务中学习记忆模块,不断积累知识,应用到新任务中,从而提升模型的泛化性。

 

(3)优化:从优化的角度解决小样本问题,其关键在于如何设计优化方法来避免小样本数据带来的过拟合现象。[a] 模型微调:采用一定的策略进行模型微调(如提前终止;部分参数更新等),避免小样本数据导致模型过拟合。 [b] 元学习初始化:该类方法的主要思想是学习适用于不同任务的鲁棒的初始化参数,使得在新任务中通过少量样本,少量迭代优化次数便可获得性能好的识别模型。[c] 元学习优化器:与传统方法不同(通过梯度下降的方式进行模型更新),该类方法的主要思想是学习元优化器,可以根据任务输出模型更新的参数,指导模型更新,避免少量数据带来的模型过拟合问题。

 

3. 小样本学习前沿方向

(1)数据生成:数据生成从根本上解决小样本问题。目前基于生成的方法在小样本学习中被广泛使用。该类方法的研究点在于如何利用少量样本生成多样性强,信息量丰富的样本。

(2)元学习:元学习在小样本识别中被广泛使用,它通过辅助数据学习元知识迁移到目标任务中。该类方法是最接近人类认知的方法,但如何学习知识,积累知识,避免过拟合,仍然处于起步阶段,具有很大的研究空间。

(3)知识利用:在数据量少的情况下,通过语义知识辅助图像识别是一种比较合理的方法。语义知识(如属性,文本描述等)是经过人类抽象的语义信息,可以有效的表示不同的类别。通过语义知识可以有效辅助目标类的识别任务。该类方法的挑战在于如何定义并提取与类别相关,迁移性较强的语义信息。

(4)广义小样本识别:目前的小样本识别任务主要研究小样本类别的分类。但现实世界中不仅只有小样本类,具有大量数据的辅助类同样需要识别。泛化小样本识别将辅助类与小样本类放到一起同时识别。该任务的核心在于如何解决数据不均衡的分类问题,避免在大数据类别上的过拟合现象。

(5)小样本检测与分割:检测和分割的应用比较广泛。相比于识别任务,检测与分割的难点在于目标的定位。如何利用小样本数据识别并定位目标存在更大的挑战,具有更大的研究价值。

 

 

怎样提升 AI 安全性:阿里的实践

针对安全 AI 应当具备的四个特征,薛晖谈到了阿里在算法和数据层面的工作,介绍了阿里打造安全 AI 的技术手段。

针对低质量小样本扩充数据

在一些业务场景中,数据样本数量少、难以获得,或获得的数据质量较差。因此,需要采取多种手段帮助 AI 进行学习,包括传统的数据增强、对抗样本生成等方法。

其中数据增强是指通过生成数据方式来补充原始数据不足的问题。以人脸识别为例,假设已有大量正脸数据,而现在的场景需要进行人类侧脸的识别时,可以通过 3D 模型结合原始图像的方式,进行侧脸数据的生成。

此外,还有对原始数据进行风格迁移、背景替换等方式,能够弥补数据不足的问题。据悉,在一些人体识别的场景中,使用一些策略生成数据,带来的效果比较好。除了生成特定数据外,阿里也采用了流行的对抗样本生成方法,让模型通过对抗样本提升性能和鲁棒性,如使用一些策略生成对抗文本,帮助模型学习和检测非法词汇。

采用生成对抗样本的方式,扩充数据并提升模型鲁棒性。

当然,如果在实在无法获得更多数据的情况下,采用跨模态多维度分析的方法也可以提升模型的性能。在采访中,机器之心询问了薛辉关于如何对堆砌多种商品名词的商品文本进行分类的技术。例如,某商品实际为「高压锅」,但商家为了提升被搜索到商品的概率,将淘宝商品命名为:「电压力锅高压锅电饭煲煮锅」。这样的命名方式被称为「堆砌」,会导致用户浪费时间搜索和浏览无意义的商品。

为了解决这一问题,阿里在处理商品名称上会采用多维度的方法。例如,判断该商品的类别时,不仅仅输入商品名称,而是加入多种数据和维度进行分析,包括商品的图片、详细描述,甚至是评论等信息。通过多种维度,能够更精准的判断该商品的实际类别和属性,从而去除堆砌词语。

广泛使用迁移学习

迁移学习近来取得了很多成果。从通用图像表征到自然语言处理,预训练模型已成为解决一些任务的有效方法。在阿里的实践中,很多任务都可以采用迁移学习来解决。一方面,模型可以在小样本、低质量数据的条件下进行学习,同时还能够利用迁移学习的能力,使模型具有一定的泛化能力。

而利用迁移学习的过程中,如何判断某一模型是否适合迁移到另一场景时所使用的测评标注非常重要。举例说明,某个在淘宝上表现较好的图像分类模型,如果要应用于优酷视频的分类时,在分类类别一致但数据的领域不一致的情况下,研究者会首先尝试使用优酷的数据,观察有少量数据的情况下模型的性能表现(根据任务类型选择评测指标,例如 top-5 准确率等)。然后,再观察使用不同的数据和多种迁移策略下的综合表现,最终判断迁移是否成功。

另外,除了迁移学习外,阿里也关注能否将多个任务合并的问题,对应该问题研究者会关注「遗忘率」这样一个指标。遗忘率指的是模型在新任务上精度达到要求后,在原始任务上精度的下降程度。如果迁移后依然保持原始任务上的精度,则说明可以使用一套通用的模型同时完成两个任务的学习。

现在,阿里已有非常丰富的业务形态,如文娱、社交等。当面对复杂的多对多的模型迁移时,评估则可能是更加多维度的,甚至需要使用矩阵表示不同任务上模型迁移后的性能表现。这可能需要更加系统的分析工作。

逐渐引入元学习

元学习的兴起,也推动了用算法去解决小样本学习问题。考虑到当不同任务之间的空间不同,迁移学习并不一定总是有效,因此阿里已对元学习进行研究并尝试解决安全 AI 中的一些问题。

和一般的机器学习不同,元学习不是指用模型来学习某个特定任务中的特定数据,而是学习一种「学习的过程」,简而言之是学习一种方法论。具体而言,对元学习分类器,可输入一部分数据,但目标是让学习到的模型能够用来预测未见的另一部分数据。通过这样的方法,使模型根据已学习到的数据的特征预测未见数据。

因为元学习模型对未见数据具有推理能力,因此阿里目前在业务层面多采用「迁移学习+元学习」的方式应用算法——首先采用迁移学习,在大量的任务上训练得到一个泛化性能较好的通用模型,随后结合元学习,使其具有应对未知任务的能力。

提升模型可解释性

可解释性是安全 AI 必须面对的一个问题。不透明、无法解释的「黑盒」模型必然会降低人们对推理结果的信赖程度。更重要的是,如果不清楚模型决策的原理,就无法对其进行干预,实现更好地提升其性能。

在提升 AI 可解释性方面,阿里有自己的一套办法。提升模型的可解释性在薛晖看来首先在于提升数据的可解释性。因此在输入模型之前,研究者会首先对数据的分布进行判断,并挑选特定的样本。

通过对敏感词的分析,捕获模型在分类过程中的关注点,拟合模型的决策边界,使其具有可解释性。

其次就是模型的可视化工作。研究者会打开模型的黑盒结构,对如神经网络中的每个神经元进行研究,观察它们所「看到」的特征。这一过程可使用可视化方法,例如对一张被判断为猫的图像进行研究,观察图像的哪些部分被激活,从而给「猫」这一分类带来了强增益。这样使得研究者在观察被误分类的图像时发现哪些特征会导致模型将图像分类错误,从而进行调整和改进。

当然,在提升模型可解释性方面,更重要的可能是需要具有可解释性的训练框架。此外,目前的场景中如果真正需要强可解释性,可能需要的是依然是模型和规则的结合。

综上所述,AI 与安全是一个永恒的话题。安全领域需要 AI 的介入和协助,从阿里的在知识产权保护等一系列场景中的实际可以说明,AI 在安全领域有很大的应用空间。而另一方面,在 AI 逐渐深入日常生产生活的过程中,阿里也一直在致力于提升安全性,确保 AI 性能稳定,决策渐渐变得透明。

 

posted @ 2021-03-04 20:29  bonelee  阅读(2691)  评论(0编辑  收藏  举报