摘要:人类能从少量样本中学习新的概念且不会忘记以前的类别,为实现这一目标,作者提出:1、扩展一个具有注意力的目标识别系统,这种注意力来源于少样本分类权重生成器;2、重新设计卷积网络模型的分类器,作为特征表示和分类器权重向量之间的余弦相似函数。除了统一对新类和旧类的识别外,还能对新类进行更好概括的特征表示。实验结果显示该方法不牺牲旧类的准确率。同时这里用到了最新few-shot样本集,Bharath and Girshick。
1、介绍
卷积网络的三大问题:1、手动收集样本多;2、计算量大;3、类别固定。现有Few-shot算法问题:1、新类别的学习需要快速;2、不能牺牲初始类别的精度。
基于注意力的少样本分类权重生成器。典型的卷积网络提取一个高水平特征表示,然后对特征应用一组类别权重向量(每类一个)。为了识别新类,必须构造新的分类权重向量,称为少样本分类权重生成器。它通过在基本类别的分类权重向量上引入注意力机制,利用已经获得的视觉知识,提高新类别的识别性能,即便只有一个训练样本可供学习。
基于余弦相似度的卷积网络识别模型。基于点积的分类器无法灵活处理旧类和新类的分类权重向量。这里引入特征表示和分类权重向量之间的余弦相似度函数,在新类上有更好的泛化性能。
2、相关工作
元学习,一些代表性工作,这里将少样本分类权重生成器作为元学习的一个组件。
度量学习metric learning,度量学习方法学习保持类近邻的结构的特征表示,即同类目标的特征比异类特征更接近。Prototypical Networks通过计算新类特征向量的距离分类测试样本,提出学习一个新类的特征向量作为该类测试样本中提取的特征向量的平均值。本文的少样本分类权重生成器也包含了一个特征平均机制,并使用注意力机制利用过去视觉知识,且框架允许新类和旧类的统一识别。
此外,Bharath和Girshick建议在训练L2正则化损失时使用特征表示,使他们更好的泛化不可见类别。在这里基于余弦相似度的分类器,除了统一新类和旧类外,还能产生更好的泛化不可见类的特征表示。另外,很多方法对分类器进行新样本和旧样本的再训练,这通常比较慢,且需要维护大量数据。
3、方法
主要改动为:1、基于卷积网络的识别模型;2、少样本类别权重生成器。
在初始样本训练过程学到特征提取器F,可以得到特征表示,与每个类的权重向量结合可以得到评分,最高分为分类结果。这里原始类的权重向量由大量样本训练得到,而新的样本由分类权重生成器G得到,两者产生的点积尺寸可能大为不同。为避免这一问题,作者采用cosine相似度函数代替点积,先对w和z进行L2规范化,再计算cosine值,并取消了最后一层的ReLU操作。
使用t-sne可视化后发现cos比点积有更好的聚拢可分辨效果。
对于权重生成器G,其输入是新类的特征表示、旧类的权重向量,内部参数Φ在大量初始数据中训练得到,可以认为这里是一个元学习部件。G的具体形式构建,作者认为cosine相似促使特征生成器学习到紧凑的特征向量,且促使分类权重向量学到这些聚类中最优代表性的特征向量,所以一个最简单的方式是计算特征向量的平均值。但少量样本会造成极大误差,且没有用到初始样本及类的知识。这里作者引入了注意力机制。
作者认为相似的类应该有相似的权重向量,所以新类的权重向量可以表示为相似类权重向量的线性组合,将两部分合在一起:
训练分为两部分:1、学习一个网络能得到好的特征抽取,并计算初始类权重;2、通过初始类权重和大量样本计算G中的参数Φ。