人脸识别和检测中loss学习 - 7 - SphereFace

论文下载：http://openaccess.thecvf.com/content_cvpr_2017/papers/Liu_SphereFace_Deep_Hypersphere_CVPR_2017_paper.pdf

SphereFace: Deep Hypersphere Embedding for Face Recognition

softmax损失仅仅能够学到分辨性不够强的特征，除此之外，还有contrastive loss，center loss，triplet loss。

但是它们都在一定程度上存在弊端：

center loss仅能使得类内紧凑，无法使得类间可分。

contrastive loss和triplet loss需要pair/triplet 挖掘过程，增加时间的损耗。

除此之外，还有一个更关键之处：以上的损失函数都使用了欧式距离，而softmax损失学习到的特征有角度上的分布特性。

证明了softmax损失学习到的特征有角度上的分布特性，因此在这种意义上，欧式距离与softmax损失是不兼容的，所以作者认为结合softmax损失和欧式距离效果可能不是最佳的。

一步步修改损失：

1）modified softmax loss

传统softmax loss损失函数为：

为了简化计算，把偏置b设置为0，,然后权重和输入的内积用下面式子表示：

因此为了将损失函数变换成仅受角度影响的公式，需要经过下面的几个变换：

1》决策边界

首先softmax loss的决策边界（decision boundary）为：

(W₁ −W₂)x + b₁ − b₂ =0

其中W₁、W₂表示的是对应的权重矩阵中1、2对应的类的那一行；b₁、b₂同理；x即整个input输入的特征向量

这个公式是因为其决策边界是线性的。

证明：

假设决策边界是线性的，那么会有：

1.首先在决策边界上softmax对任意两类的输出概率是相等的。即对如上图的任一边界上的一点，softmax输出的概率向量上，该点被判断为边界两侧的类的对应分量是相等的

这样，通过计算可知：

z_i = W_i*x + b_i = z_j = W_j*x + b_j （这里W_i和W_j是权重矩阵第i,j行，i、j即边界两侧的两个类）

2.边界是线性的等价于边界上的任意两个点X₁、X₂，他们的线形组合X₀=t*X₁+s*X₂ 仍然在决策边界上，这里t+s=1

根据上面这两个条件证明：

从softmax的决策边界上任取两点X₁,X₂

由上面的叙述1可知，W₁*x+b₁=W₂*x+b₂，即（W₁-W₂)*x=b₂-b₁

再任取一点X₀= t*X₁+ s*X₂，s+t = 1

则softmax对X₀的计算得z₁= W₁*X₀+ b₁, z₂= W₂*X₀+ b₂, 下面证明z₁=z₂：

z₁- z₂= W₁*X₀+ b₁- (W₂*X₀+ b₂) ，（代入X₀= t*X₁+ s*X₂）

= t*(W₁- W₂)*X₁+ s*(W₁- W₂)*X₂ + (b₁ - b₂) ，（代入（W₁-W₂)*x=b₂-b₁）

= t*(b₂-b₁) + s*(b₂-b₁) + (b1-b2)

= 0

所以，z1=z2，即证明X₀也在决策边界上

2》约束条件

然后使用L2正则化处理W_j使得||W_j||=1，L2正则化就是将W_j向量中的每个值都分别除以W_j的模，从而得到新的W_j，新的W_j的模就是1：

说明该方法只归一化了权重，而没有归一化特征向量

这样根据式子：

可以将softmax loss损失函数变换为只与角度相关的公式：

||x|| (cos(θ_i) - cos(θ_j)) = 0

这里的θ_i是W_i和x之间的角度

通过这样的损失函数学习，可以使得学习到的特征具有更明显的角分布，因为决策边界只与角有关

这样修改后的损失函数modified softmax loss为：

x_i表示第i个训练样本，y_i为第i个训练样本的类别，W_j表示W的第j列，W_yi表示W的第y_i列，表示列是因为进行了转置

2）A-softmax loss（angular softmax）

1》添加定量控制参数m

添加一个定量控制参数m（m>=1）到决策边界上，这样类1和类2的决策边界为：

||x|| (cos(mθ₁) - cos(θ₂)) = 0，对于类1来说

和 ||x|| (cos(θ₁) - cos(mθ₂)) = 0，对于类2来说

m参数用来定量控制角度边际

在modified softmax loss，对于一个来自类别1 的可学习特征向量x，θ_i是该x和W_i之间的角度，可知如果我们希望网络能够分类得到该x属于类别1，那么就需要cos(θ₁) > cos(θ₂), 因为θ_i范围为[0,Π],在这个范围内cos()函数是递减的，所以要求(θ₁) < (θ₂)

所以如果增加一个参数m，变为cos(mθ₁) > cos(θ₂) ， m >= 2 ,那么就希望训练得到的θ₁更小，该类1的决策边界为cos(mθ₁) = cos(θ₂)；同理cos(θ₁) < cos(mθ₂),也是希望训练得到的θ₂更小，该类2的决策边界为cos(θ₁) = cos(mθ₂)。这样两个类的分布中间就会隔着一个比较大的角度边际，因为各自的角度都要乘以m才能到达边界