人脸识别(不确定性) - Data Uncertainty Learning in Face Recognition - 1 - 论文学习
之前可以先看一下人脸识别(不确定性)- Probabilistic Face Embeddings - 1 - 论文学习
Data Uncertainty Learning in Face Recognition
Abstract
建模数据的不确定性对于噪声图像是很重要的,但是在人脸识别的研究却很少与这方面相关。其先驱作品[35]通过将每个嵌入的人脸图像建模为高斯分布来考虑不确定性。这很有效。然而,它使用现有模型的固定特征(高斯均值)。它只估计偏差,并依赖于一个特别且昂贵的度量。因此,它不容易使用。目前还不清楚不确定性如何影响特征学习。
我们的工作首次将数据的不确定性学习应用到人脸识别中,使特征(均值)和不确定性(方差)能够同时学习。提出了两种学习方法。它们在挑战无约束的场景中易于使用,其性能超过了现有的确定性方法和[35]。我们还提供了关于如何结合不确定性估计会有助于减少噪声样本的不利影响和影响特征学习的深刻分析。
1. Introduction
数据的不确定性捕获了数据中固有的“噪声”。对这种不确定性进行建模对于计算机视觉应用[22],如人脸识别,是非常重要的,因为图像中广泛存在噪声。
大多数人脸识别方法将每幅人脸图像表示为嵌入在潜在空间中的一个确定性点[7,27,41,42,33]。通常,相同ID的高质量图像是聚集在一起的。然而,对于噪声较大的人脸图像,很难估计出准确的点嵌入,这些图像通常处于聚类之外,在嵌入空间中具有较大的不确定性。这在图1 (a)中得到了例证。positive例子与它的同类相距甚远,但接近于有噪声的negative例子,导致了错误匹配。
(a图说明在确定性模型中,圈外的正样本和负样本在传统的相似度计算方法下,很难被区分开来;b图说明PFE方法为每个样本估计了一个分布,其中均值特征和a图的确定性特征是一样的,只是多了一个方差,在这种情况下,利用MLS就能够将正样本和负样本区分开来;c图也是估计了一个分布,但是能够将样本的均值特征修正得更好,同类的特征更接近)
Probabilistic face embeddings(PFE)[35]是第一个考虑数据不确定性的人脸识别方法。对于每个样本,它在潜在空间估计一个高斯分布,而不是一个固定的点。具体来说,给定一个预先训练好的FR模型,每个样本的高斯均值固定为FR模型产生的嵌入。一个额外的分支被附加到FR模型上,并被训练来估计方差。训练是由一个新的相似度度量——mutual likelihood score (MLS)驱动的,它测量两个高斯分布之间的“似然”。结果表明,对于高质量样本,PFE估计的方差较小,而对于有噪声样本,PFE估计的方差较大。结合MLS度量,PFE可以减少噪声样本的错误匹配。如图1 (b)所示。PFE虽然有效,但其局限性在于它不学习嵌入的特征(均值),而只学习不确定性。因此,目前还不清楚不确定性如何影响特征学习。此外,传统的相似度度量如余弦距离也不能使用。人们需要更复杂的MLS度量,它需要更多的运行时和内存。
该工作首次将数据不确定性学习(DUL)应用于人脸识别,同时学习特征(平均值)和不确定性(方差)。如图1 (c)所示,这改进了一些特性,例如同一个类中的实例更加紧凑,不同类中的实例更加分离。在这种情况下,学习到的特征可以直接用于传统的相似度度量。不再需要MLS度量。
具体来说,我们提出了两种学习方法。第一种是基于分类。它从零开始学习模型。第二种是基于回归的。它改进了现有的模型,类似于PFE。从图像噪声的角度讨论了两种方法中学习到的不确定性对模型训练的影响。我们提供了深刻的分析,通过自适应地减少噪声训练样本的不利影响,学习到的不确定性将改善身份嵌入的学习。
综合实验表明,与现有的确定性模型和PFE模型相比,我们所提出的方法提高了人脸识别的性能。在低质量人脸图像的基准上,该改进效果更明显,表明具有数据不确定性学习的模型更适合无约束人脸识别场景,对实际任务具有重要意义。
2. Related Work
长期以来,为了帮助解决可靠性评估和基于风险的决策问题,人们对不确定性的性质及其处理方法进行了广泛的研究[9,31,8]。近年来,不确定性在深度学习中受到越来越多的关注。人们提出了许多技术来研究不确定性在深度神经网络中的具体表现[3,10,11,22]。对于深度不确定性学习来说,不确定性可以分为捕获深度神经网络参数噪声的模型不确定性和测量给定训练数据中固有噪声的数据不确定性。近年来,语义分割[19,21]、目标检测[6,25]、person Re-ID[50]等许多计算机视觉任务都将深度不确定性学习引入到CNN中,以提高模型的鲁棒性和可解释性。在人脸识别任务中,已有一些研究提出利用模型的不确定性来分析和学习人脸表征[13,51,23]。其中PFE[35]是第一个考虑人脸识别任务中数据不确定性的研究。
大尺度数据集CASIA-WebFace [47], Vggface2 [5] 和MS-Celeb-1M [14]在深度CNN人脸识别训练中起着重要作用。这些在线采集的人脸数据集不可避免地存在大量的标签噪声,因为样本被错误地赋予了数据集内其他类的标签。一些研究探讨了标签噪声[39]的影响以及在这种情况下如何训练鲁棒FR模型[17,44,29]。Yu et al.[50]在person Re-ID中声称,劣质图像带来的另一种图像噪声也会对训练后的模型产生不利影响。我们的方法并不是专门针对有噪声的数据训练提出的,但是,我们从图像噪声的角度对学习数据的不确定性如何影响模型训练提供了深刻的分析。此外,我们还通过实验验证了所提出的方法在有噪声数据集上的鲁棒性。
3. Methodology
在3.1节中,我们首先揭示了连续映射空间和特定的人脸数据集中固有的数据不确定性。在3.2节中,我们提出了DULcls来考虑标准人脸分类模型中的数据不确定性学习。接下来我们提出另一种基于回归的方法DULrgs来改进3.3节中已有的确定性模型。在3.4节的最后,我们澄清了建议的方法和现有的工作之间的一些区别。
3.1. Preliminaries
Uncertainty in Continuous Mapping Space 假设一个连续的映射空间,其中每个被一些输入相关的噪声干扰,即,那么我们说这个映射空间本身带有数据不确定性。考虑一个简单的情况,噪声是可添加的,由均值为零且方差与x相关的高斯分布绘制。那么每个观测目标为和是我们想要找到的嵌入函数。传统的回归模型只训练给定输入的近似。而带有数据不确定性学习的回归模型还估计了,表示了预测值的不确定性(见图2,(a))。这种技术已经被许多任务使用[22,4,30,12,2]
Uncertainty in Face Datasets 与上述继续映射空间类似,由组成的人脸数据集也带有数据不确定性。这里X是连续的图像空间,而Y是离散的身份标签。通常,在线收集的大量人脸图像在视觉上是模糊的(对齐不良、严重模糊或遮挡)。这些质量较差的样本很难从训练集中过滤掉(见图2,(b))。在深度学习时代,每个样本被表示为潜在空间中的一个嵌入。如果我们假设每个的理想嵌入主要代表其身份,并且很少被与身份无关的信息干扰,然后被DNNs预测得到的嵌入可以重新表示为,其中是嵌入空间中的不确定性信息。
3.2. Classification-based DUL for FR(第一种方法)
我们提出的DULcls首先将数据不确定性学习引入到端到端训练的人脸分类模型中。
Distributional Representation 具体来说,我们定义每个样本的潜在空间表征为一个高斯分布:
其中CNNs预测的高斯分布的两个参数(均值和方差)是与输入相关的:,其中和分别表示输出和模型参数。在这说明我们预测的高斯分布是一个对角线多元正态分布(diagonal multivariate normal)。能够表示人脸的身份特征,表示预测的不确定性。现在,每个样本的表征已经不再是一个确定的点嵌入了,而是潜在空间中一个采样自的随机嵌入。可是,采样操作是不可微分的,在模型训练过程中阻碍了梯度流的后向传播。我们使用re-parameterization技巧[24]去让模型仍正常地获取梯度。具体说来,就是首先我们从一个正态分布中采样一个随机噪音,其与模型参数是无关的,然后生成作为等效采样表征(图3为一个pipeline概述):
Classification Loss 是每个图像的最终表征,我们将其输入分类器去最小化下面的softmax loss:
在实现中,我们还使用的不同变体,如additive margin [40], feature l2 normalization [32]和arcface [7]去训练我们的人脸分类网络。
KL-Divergence Regularization 等式(2)说明了在训练期间,所有身份嵌入都会被干扰,这将会促使模型为所有样本预测一个小的,用以压缩中不稳定的成分,这样等式(3)最后仍能收敛。在这种情况下,梯度表征能够重新表示为(这里的c是估计的,它是一个小的常数值),其实际上已经降级为原始的确定性表征了。受到variational information bottleneck[1]的启发,我们在优化中介绍了一个正则化项,通过测量两个分布的Kullback-Leibler divergence (KLD) ,以显式地限制去接近一个正态分布。KLD项为:
注意,在(表示嵌入的第维)的限制下,c对于来说是单调递减的。作为等式(3)的“balancer”。具体说来,DULcls不鼓励从所有样本中预测大的方差,所以会导致的爆炸,这导致了很难收敛。同时,DULcls也不鼓励从所有样本中预测比较小的方差,这将导致大的去反向惩罚模型。
最后,我们使用作为最后的损失函数,其中是用于权衡的超参数,将在4.6节被进一步分析。
(最后在测试时使用得到的均值作为特征来计算相似度即可)
3.3. Regression-based DUL for FR
DULcls是一种具有数据不确定性学习的通用分类模型。接下来,我们提出了另一种基于回归的方法DULrgs,通过数据不确定性学习来改进现有的FR模型。
Difficulty of Introducing Data Uncertainty Regression to FR DULrgs受到了如3.1节中描述的用于连续映射空间的数据不确定性回归的启发[26,22]。然而,人脸数据集中的映射空间是由连续的图像空间和离散的身份标签构建的,不能通过数据不确定性回归直接拟合。关键在于身份标签不能作为近似的连续目标向量。这个问题在PFE[35]中也提到过,但没有得到解决。
Constructing New Mapping Space for FR 我们构建一个新的目标空间,对于人脸数据来说是连续的。更重要的是,其近似等价于原始离散的目标空间Y,鼓励正确的映射关系。具体说来,就是我们预训练一个基于分类的确定性FR模型,然后使用其分类层的权重作为期望的目标向量(其中D为嵌入的维数,C为训练集中的类数)。每个被当作同一个类的嵌入的中心,因此能够被当作新的等价映射空间。如3.1节中描述的连续映射空间中的不确定性相似,有固有噪音。我们可以构建从到映射公式,其中是“理想的”身份特征,且每个观察到的都会被与输入相关的噪音干扰。
Distributional Representation 接下来,我们将使用数据不确定回归估计上面的和。具体来说,一个高斯分布被假设为似然:,其中和都由神经网络中的权重进行参数化(即,可见图4)。如果拿当作目标,我们应该最大化下面每个的似然:
实际上,我们使用如下的对数似然:
假设是独立同分布的(iid),所有数据点的似然为。实际上,我们训练网络去预测对数方差,在随机优化过程中稳定数值。最后似然最大化被重置为损失函数的最小化:
其中D、N和分别是嵌入维度大小、数据点量和每个特征向量的第维。我们在优化过程中省略了常数项
Loss Attenuation Mechanism 通过对等式(6)进行定性分析,我们可学习的方差能够被看作测量可学习身份嵌入属于类别c的置信度的不确定分数。具体来说,对于这些远离类中心的模糊将被估计大的方差去调和error项,而不是过拟合这些噪音样本。DULrgs阻止为所有样本预测大的方差,因为这将导致的欠拟合,且更大的项将会反过来惩罚网络。同时,DULrgs还会阻止为所有样本预测非常小的方差,因为这将导致error项的成倍增长。因此,等式6允许DULrgs去调整error项的权重。这使得该模型能够学习如何减弱由低质量样品引起的模糊的影响
3.4. Discussion of Related Works
首先讨论了DULcls与变分信息bottleneck(variational information bottleneck, VIB)[1]之间的关系。VIB[1]是深度学习框架下信息bottleneck(information bottleneck, IB)原理[38]的变分近似。VIB寻求从输入数据X到潜在表征Z的随机映射,这是在使Z尽可能简洁但仍有足够能力预测标签Y[38]之间的基本权衡。值得注意的是,与VIB中的目标函数相似。然而,我们从数据不确定性的角度分析了这一分类方法,而VIB从信息bottleneck的角度推导了这一目标函数。
我们接下来阐明DULrgs和PFE[35]之间的一些不同。虽然DULrgs和PFE都正式地将输入不确定性编码为了方差表征。可是,PFE基本测量了共享相同潜在embedding的positive对的似然。而DULrgs将传统的最小二乘回归(Least-Square Regression)技术解释为数据不确定性回归模型的最大似然估计(Maximum likelihood Estimation)。
最后,DULcls和DULrgs都学习了身份表征和不确定表征,保证了我们预测的可以用常用的匹配度量直接计算。然而,由于PFE没有学习身份表征,因此PFE必须使用mutual likelihood score(MLS)作为匹配度量来提高确定性模型的性能。
4. Experiments
在本节中,我们首先在标准的人脸识别基准上评估所提出的方法。然后,我们提供定性和定量分析来探讨学习数据不确定性的含义以及数据不确定性学习如何影响FR模型的学习。最后,我们在有噪声的MS-Celeb-1M数据集上进行了实验,以证明我们的方法比确定性方法更健壮。
4.1. Datasets and Implementation Details
我们将描述所使用的公共数据集以及实现细节。
Datasets 我们使用有79891名受试者的3,648,176张图像的MS-Celeb-1M数据集作为训练集。2个基准分别为LFW[18]和megface[20](注意到我们使用的是megface的rank1协议),以及3个无约束基准:CFP[34](注意到我们只使用CFP的“front-profile”协议)、YTF[43]和IJB-C[28],按照标准评估协议对DULcls/rgs的性能进行评估。
Architecture 我们用SE-blocks[16]在ResNet[15]骨干上训练基线模型。基线模型头部为:BackBone-Flatten-FC-BN,嵌入维数为512,dropout概率为0.4,然后输出嵌入特征。与基线模型相比,DULcls有一个共享相同架构的额外头部分支来输出方差。DULrgs也一个额外的头部分支,其架构是:BackBone-Flatten-FC-BN-ReLU-FC-BN-exp,输出方差。
Training 使用momentum为0.9、权重衰减为0.0001、批大小为512的SGD优化器训练所有基线模型和DULcls模型21万steps。我们使用triangular学习速率策略[36],其max_lr为0.1,base_lr为0。对于大多数DULcls模型,我们将λ权衡超参数设置为0.01。对于提出的DULrgs,我们首先训练基线模型21万步,然后固定所有卷积层的参数(步骤1)。然后我们从头训练头部的均值分支和方差分支,使用256的batch size去训练14万步(步骤2)。在步骤2中,我们将学习率设置为0.01,然后在56000 step和84000 step的时候分别下降到0.001和0.0001。
4.2. Comparing DUL with Deterministic Baselines
在本节中,所有基线模型均使用ResNet18 backbone[15]进行训练,并配备不同类型的softmax 损失,即AM-Softmax[40]、ArcFace[7]和L2-Softmax[32]。训练过程中,分类器的嵌入特征和权重均采用l2归一化。我们提出的DULcls模型是用相同的backbone和损失函数训练的。如4.1节所述,我们提出的DULrgs模型是基于不同的预训练基线模型进行训练的。
表1报告了基线模型(“原始”)和建议的DUL模型所获得的测试结果。采用余弦相似度进行评价。我们提出的方法在大多数基准上优于基准确定性模型(注意到DULrgs与L2-Softmax相结合会在IJB-C上得到恶化效果,这一点有待进一步探讨)。这表明所提出的方法对不同的最先进的损失函数是有效的。这些结果表明, 与使用更清楚且都是正脸图(LFW and MegaFace)的benchmarks相比,使用数据不确定性(即我们方法中的)训练的身份嵌入(即我们方法中的) ,比基线模型的点嵌入呈现了更好的类内紧凑、类间稀疏的效果,在那些无约束基准上也是如此: 即带有frontal/profile图的CFP、带有来自YouTube视频的最模糊的照片的YTF / IJB-C。
该算法对IJB-C benchmark验证协议的改进是最显著的,也是最具挑战性的。因此,我们绘制了true acceptance rate(TPR)和false acceptance rate(TPR)如何随着阈值的变化而变化。如图5所示,在不同的匹配阈值设置下,DULcls比基线模型获得更高的TPR和更低的FPR。此外,FPR设置得越低,DULcls在TPR上的表现就越好。图5也显示了绝大多数的false acceptance分别发生在基线模型和DULcls中。我们可以看到,DULcls解决了更多带有极端噪声的FP案例,这通常发生在基线模型中。这表明,具有数据不确定性学习的模型比确定性模型更适用于无约束人脸识别场景。
我们对DULrgs也有类似的结论。
4.3. Comparing DUL with PFE
为了便于比较,我们根据[35]中推荐的实现细节设置(这意味着我们在模板/视频基准中,如YTF 和 IJB-C,使用mutual likelihood score(MLS)进行匹配,并使用其提出的融合策略进行特征聚合),在所有基线模型上重新实现PFE。我们注意到,我们的重新实现取得了与[35]相似或稍好一些的结果。我们的DULcls/rgs为模版上的特征使用平均池化聚合,然后评估余弦相似度。与PFE相比,我们提出的DULcls在所有情况下都取得了更好的性能,而提出的DULrgs也表现出了具有竞争力的性能。结果见表1。
PFE将由确定性FR模型学习的点嵌入作为其输出分布估计的平均值,并且只学习每个样本的不确定性(方差)。因此,PFE必须使用MLS度量,其考虑了预测的方差。尽管PFE通过更精确的匹配测量获得了更好的结果,但它在匹配时仍然存在较多的计算复杂度。具体来说,对于6000个人脸对(LFW)的验证,在两个GTX-1080上,标准余弦度量通过矩阵乘法用时不到1秒,而MLS用时1分钟28秒。
4.4. Comparison with State-Of-The-Art
为了与最先进的数据进行比较,我们使用更深更强的backbone ResNet64作为我们的基线模型,在MS-Celeb-1M数据集上使用AM-Softmax 损失进行训练。然后我们根据4.1节中描述的设置训练提出的DUL模型。
结果如表2所示。注意到基线模型在LFW和CFP-FP上的性能已经饱和,数据不确定性学习的优点并不明显。然而,DULcls/rgs仍然略微提高了YTF和MegaFace的精度(注意,我们使用的megaface数据集是经过提炼的,而之前在表2中报道的SOTA结果通常使用未经提炼的megaface)。表3报告了不同方法在IJB-C上的结果。PFE和DUL都实现了比基线模型更好的性能。
4.5. Understand Uncertainty Learning
在这一部分,我们定性和定量地分析所提出的DUL,以获得更多数据不确定学习的见解。
What is the meaning of the learned uncertainty? 估计的不确定性与人脸图像质量密切相关,无论是DULcls还是DULrgs。这在PFE[35]中也可以观察到。为了可视化,我们在图6中显示了不同数据集的学习不确定性(具体地说,我们使用预测的方差σ∈R512的调和均值作为估计不确定性的近似测量,下面也一样)。结果表明,学习的不确定性随着图像质量的下降而增加。这种学习到的不确定性可以被看作是模型估计的对应身份嵌入的质量,测量预测的人脸表征与其在潜在空间中的genuine(或true)点位置的接近程度。
因此,利用数据不确定性学习进行人脸识别有两个优点。首先,学习到的方差可以作为一个“风险指标”来提醒FR系统,当估计的方差很高时,输出决策是不可靠的。其次,学习到的方差也可以作为图像质量评价的度量。在这种情况下,我们注意到没有必要像以前那样训练一个需要明确的质量标签的单独的质量评估模型。
How the learned uncertainty affect the FR model? 在这一部分,我们试图阐明学习到的数据不确定性如何影响模型训练的机制,并帮助获得更好的特征嵌入。
我们将MS-Celeb-1M数据集中的训练样本按照DULcls估计的不确定度分为三类:低方差的简单样本、中方差的semi-hard样本和大方差的hard样本。我们计算了三个类别中每一个类别的误分类样本占基线模型和我们的DULcls产生的所有误分类样本的比例。从图7可以看出,与基线模型相比,我们的DULcls在简单样本和semi-hard样本上造成的不良情况相对较少。然而,对于那些具有极端噪声的hard样本,与DULcls相比,基线模型产生的不良情况较少。这表明,具有数据不确定性学习的FR网络更多地关注那些需要正确分类的训练样本,同时“放弃”那些有害样本,而不是过度拟合。这支持我们之前在第3.2节中的讨论。
我们也对DULrgs进行了类似的实验。对于基线模型和DULrgs,分别计算类中心与其类内估计的身份嵌入()之间的平均欧氏距离(注意到在MS-Celeb-1M中,所有类的平均距离都被进一步平均)。如图8所示,DULrgs将容易的和semi-hard的样本拉近到他们的类中心,而将hard样本推得更远。这也支持了我们在3.3节的讨论,即等式6通过自适应加权机制,即,有效地防止了在噪声非常大的样本上的模型的过拟合。
最后,我们手工构建不同模糊度的imposter/genuine测试对,比较基线模型和我们的方法分别得到的余弦相似度。如图9所示,随着模糊度的增加,基线模型和DUL都迅速恶化。然而,与基准模型相比,我们所提出的算法在genuine对相似度和imposter对相似度上分别获得了更高的相似度和更低的相似度,表明该算法具有更强的鲁棒性。
4.6. Other Experiments
Impact of hyper-parameter of DULcls 在这一部分,我们定性地分析了控制DULcls的权衡超参数λ 的值。正如VIB[1]中提到的,KLD项作为一种正则化来权衡bottleneck嵌入中保留的信息的简洁性和丰富性。我们通过实验发现,我们方法中的KL散度影响σ的表示能力。如表4所示,带有未优化的KLD项(λ = 0)的DULcls表现接近基线模型。在这种情况下,DULcls对所有样本都估计相对较小的,使得采样表征接近确定性。随着KLD项的优化强度的增强(λ↑),DULcls很容易“分配”大的方差给噪声样本,分配小的方差给高质量的样本(见图7)。然而,过于最小化KLD项(λ= 1)将使模型倾向于为所有样本都预测大的方差,这将会导致等式3中的很难收敛,因此性能恶化得很快。(见表4)
DUL performs more robustly on noisy training data. 基于3.4节关于学习到的方差如何影响模型训练的分析。我们进一步在有噪声的MS-Celeb-1M上做了实验来证明这一点。从MS-Celeb-1M中随机选取不同比例的样本,对其进行高斯模糊噪声污染。表5表明,我们提出的DULcls/rgs在有噪声的训练数据上表现得更健壮。
5. Conclusion
在这项工作中,我们提出了两种通用的学习方法来进一步发展和完善用于人脸识别的数据不确定性学习(DUL): DULcls和DULrgs。这两种方法都对潜在空间中的每幅人脸图像进行高斯分布估计,同时学习身份特征(均值)和估计的均值的不确定性(方差)。综合实验表明,我们所提出的方法比确定性模型在大多数基准上有更好的性能。此外,我们从图像噪声的角度,通过定性分析和定量结果讨论了学习的不确定性如何影响模型的训练。