NLP（五十一）：利用对比学习设计自己的损失函数

转https://zhuanlan.zhihu.com/p/590547670

Contrastive Loss简介

对比损失在非监督学习中应用很广泛。最早源于2006年Yann LeCun的”Dimensionality Reduction by Learning an Invariant Mapping“，该损失函数主要是用于降维中，即本来相似的样本，在经过降维（特征提取）后，在特征空间中，两个样本仍旧相似；而原本不相似的样本，在经过降维后，在特征空间中，两个样本仍旧不相似。同样，该损失函数也可以很好的表达成对样本的匹配程度。

在非监督学习时，对于一个数据集内的所有样本，因为我们没有样本真实标签，所以在对比学习框架下，通常以每张图片作为单独的语义类别，并假设：同一个图片做不同变换后不改变其语义类别，比如一张猫的图片，旋转或局部图片都不能改变其猫的特性。

因此，假设对于原始图片X，分别对其做不同变换得到A和B,此时对比损失希望A、B之间的特征距离要小于A和任意图片Y的特征距离。

Contrastive Loss定义

定义对比损失函数L为：

其中，

通过

当

应用了对比损失的工作小结

Improved Deep Metric Learning with Multi-class N-pair Loss Objective-2016

N-pair loss，需要从N个不同的类中构造N对样本，自监督学习

本文是基于Distance metric learning，目标是学习数据表征，但要求在embedding space中保持相似的数据之间的距离近，不相似的数据之间的距离远。其实在诸如人脸识别和图片检索的应用中，就已经使用了contrastive loss和triplet loss，但仍然存在一些问题，比如收敛慢，陷入局部最小值，相当部分原因就是因为损失函数仅仅只使用了一个negative样本，在每次更新时，与其他的negative的类没有交互。之前LeCun提出的对比损失只考虑输入成对的样本去训练一个神经网络去预测它们是否属于同一类，上文已经解释了对比损失。

Triplet loss（三元损失函数）是Google在2015年发表的FaceNet论文中提出的，与前文的对比损失目的是一致的，具体做法是考虑到query样本和postive样本的比较以及query样本和negative样本之间的比较,Triplet Loss的目标是使得相同标签的特征在空间位置上尽量靠近，同时不同标签的特征在空间位置上尽量远离，同时为了不让样本的特征聚合到一个非常小的空间中要求对于同一类的两个正例和一个负例，负例应该比正例的距离至少远m

(margin)：

该loss将促使query样本和positive样本之间的距离比query样本和negative样本之间的距离大于m

(margin)。

可以看出经过Triplet loss学习以后同类的Positive样本和Anchor的距离越来越近而不同类的Negative样本和Anchor的距离越来越远。

但是三元损失函数考虑的negative样本太少了，收敛慢，因此，本文提出了一个考虑多个negative样本的方法： (N+1)-tuplet loss，即训练样本为样本x以及（N-1）个negative样本和一个positive样本，当N=2时，即是triplet loss。训练样本为

由图所示（蓝色代表positive样本，红色代表negative样本），Triplet loss在将positive样本拉近的同时一次只能推离一个negative样本；而(N+1)-tuplet loss基于样本之间的相似性，一次可以将（N-1）个negative样本推离（提高了收敛速度），而且N的值越大，负样本数越多，近似越准确。

但是如果直接采用(N+1)-tuplet loss，batch size 为N，那么一次更新需要传递Nx（N+1）个样本，网络层数深的时候会有问题，为了避免过大的计算量，本文提出了N-pair loss，如下图：

N-pair loss其实就是重复利用了embedding vectors的计算来作为negative样本（把其他样本的正样本作为当前样本的负样本，这样就不用重复计算不同样本的负样本，只需要计算N次即可得出），避免了每一行都要计算新的negative样本的embedding vectors，从而将

上述文章的亮点在于，首先提出了需要在三元损失函数中加入更多的负样本提高收敛速度，然后又想到了一种方式通过将其他样本的正样本当作当前样本的负样本的方法降低了计算复杂度。

Unsupervised Feature Learning via Non-Parametric Instance Discrimination-2018

Instance discrimination区分不同实例，将当前实例于不同实例进行空间划分

memory bank由数据集中所有样本的表示组成。

本文将instance discrimination机智地引入了memory bank机制，并且真正地把loss用到了unsupervised learning。该论文主要论述如何通过非参数的instance discrimination进行无监督的特征学习。主要的思想是将每个单一实例都看作不同的“类”。

通过CNN backbone，原始图片输入网络后输出一个经过L2标准化的128维向量，通过Non-Parametric Softmax Classifier计算每个单一样本被识别正确的概率，同时使用Memory Bank存储特征向量，通过NCE（noise-contrastive estimation，噪音对比估计）来近似估计softmax的数值减少计算复杂度，最后使用Proximal Regularization稳定训练过程的波动性。实例间的相似度直接从特征中以非参数方式计算，即：每个实例的特征存储在离散的bank中，而不是网络的权重。

噪声对比估计是一种采样损失，通常用于训练具有较大输出词汇量的分类器。在大量可能的类上计算softmax开销非常大。使用NCE，我们可以通过训练分类器从“真实”分布和人工生成的噪声分布中区分样本，从而将问题简化为二分类问题。

因此，主要有以下三个问题需要考虑：

能否仅通过特征表示来区分不同的实例。
能否通过纯粹的判别学习（discriminative learning）反应样本间的相似性。
将不同个例都看作不同的“类”，那这个数量将是巨大的，该如何进行处理。

Non-Parametric Softmax Classifier

采用softmax的instance-level的分类目标，假如有n个images

其中

非参数的softmax主要思路是每个样本特征除了可以作为特征之外，也可以起到分类器的作用。因为L2-norm之后的特征乘积本身就等于cos相似性，

使用Mermory Bank V 来存储上述的 {

NCE Loss

如果直接用上述的loss function去训练，当类的数量n很大时，要求的计算量非常大，于是使用NCE来估算。其基本思想是将多分类问题转化为一组二分类问题，其中二分类任务是区分数据样本和噪声样本。关于对NCE loss的理解如下：

当我们设计一个模型来拟合数据时，经常会遇上指数族分布：

其中分母部分是归一化常数，一个目的是用来让这个分布真的成为一个“分布”要求（分布积分=1）。很多时候，比如计算一个巨大（几十上百万词）的词表在每一个词上的概率得分的时候，计算这个分母会变得非常非常非常消耗资源。
比如一个language model最后softmax层中，在inference阶段其实只要找到argmax的那一项就够了，并不需要归一化，但在training stage，由于分母Z中是包含了模型参数的，所以也要一起参与优化，所以这个计算省不了。
而NCE做了一件很intuitive的事情：用负样本采样的方式，不计算完整的归一化项。让模型通过负样本，估算出真实样本的概率，从而在真实样本上能做得了极大似然。相当于把任务转换成了一个分类任务，然后再用类似交叉熵的方式来对模型进行优化（其实本质上是优化了两个部分：模型本身，和一个负例采样的分布和参数）。
另一方面，NCE其实证明了这种采样在负例足够多的情况下，对模型梯度优化方向和“完整计算归一化项进行优化”是一致的，这一点证明了NCE在用负采样方式解决归一化项的正确性。

“噪声对比估计”杂谈：曲径通幽之妙 - 科学空间|Scientific Spaceskexue.fm/archives/5617

Memory bank中特征表示

我们设定噪声分布为一个均匀分布：

训练目标为最小化

其中，

{

最后一点是，这篇文章加入了近似正则化项

本文引入 memory bank把前一个step 学习到的实例特征存储起来，然后在下一个step把这些存储的memory去学习。效率有所提升。但是实际在优化的时候当前的实例特征是跟outdated memory去对比的，所以学习效果还不是最优的。

Momentum Contrast for Unsupervised Visual Representation Learning-2020

MoCo

解决了一个非常重要的工程问题：如何节省内存节省时间搞到大量的negative samples？

至于文章的motivation，之前contrastive learning存在两种问题。在用online的dictionary时，也就是文章中比较的end-to-end情形，constrastive learning的性能会受制于batch size，或者说显存大小。在用offline的dictionary时，也就是文章中说的memory bank（InstDisc）情形，dictionary是由过时的模型生成的，某种程度上可以理解为supervision不干净，影响训练效果。那么很自然的，我们想要一个trade-off，兼顾dictionary的大小和质量。文章给出的解法是对模型的参数空间做moving average，相当于做一个非常平滑的update。

MoCo完全专注在 Contrastive Loss 上，将这个问题想象成有一个很大的字典，神经网络的目的就是一个 Encoder 要将图片 Encode 成唯一的一把 Key ，此时要如何做到让Key Space Large and Consistent 是最重要的。

首先借鉴了instance discrimination的文章的Memory Bank ，建一个 Bank 来保存所有的 Key （或称为 Feature）。此方法相对把所有图塞进 Batch少用很多内存，但对于很大的 Dataset 依旧难以按比例扩大。

因此，MoCo改进了 Bank，用一个 Dynamic Queue 来取代，但是单纯这样做的话是行不通的，因为每次个 Key 会受到 Network 改变太多，Contrastive Loss 无法收敛。因此 MoCo将种子 feature extractor 拆成两个独立的 Network： Encoder 和 Momentum Encoder。