机器学习中的损失函数
着重介绍hige loss 和 softmax loss。
svm回顾
\(C_1,C_2\)是要区分的两个类别,通过分类函数执行时得到的值与阈值的大小关系来决定类别归属,例如:
我们取阈值为0,此时\(f(x)=sgn[g(x)]\)就是最终的判别函数。对于同一个问题,有多个分类函数,哪一个更好呢?于是引入了“分类间隔”的指标
函数间隔和几何间隔
给定样本\((x_i, y_i)\),函数间隔为:
当\(y_i=1\)时,\(w^Tx_i+b\)应该是一个很大的正数,反之是一个大负数。因此函数间隔反映了模型的确定度。
考虑w和b,如果同时加倍w和b,函数间隔也会加倍,但这对于求解问题是无意义的。因此我们限制w和b,引入了归一化条件,毕竟我们求解的唯一的一对w和b。
几何距离:点A到垂足的单位方向向量BA为\(\frac{w}{||w||}\),假设\(A=x_i\),则\(B=x_i-\hat{\gamma}*\frac{w}{||w||}\),带入\(w^Tx+b=0\)得到:
\(\hat{\gamma}\)可以看出就是二维平面中,点到直线的距离,高维下便是点到平面的距离。考虑正反例:
当\(||w||=1\)时,几何间隔也正是我们想要的归一化函数间隔。归一化也解释了函数间隔的实际意义。
最优间隔分类器
我们的目标是找到一个超平面,使得里超平面较近的点能有更大的间距,也就是我们不必考虑所有的点,值关心离它最近的点能具有最大间距。
然而这个目标函数仍然不是凸函数,我们把问题转化一下,我们取\(\gamma=1\),此时离超平面最近点的距离即为\(\frac{1}{||w||}\),计算\(\frac{1}{||w||}\)的最大值相当于计算\(\frac{1}{2}||w||^2\)的最小值。(之所以采用这种形式,是为了方便后面的求解过程)
最终的优化方程如下:
只有线性约束,且是一个典型的二次规划问题。核函数、松弛变量等问题这里先不做涉及。
损失函数
模型的优化函数的通常形式如:
前面是损失函数,后面是正则项。
常用的损失函数
- 铰链损失(Hinge Loss):主要用于支持向量机 SVM中;
- 交叉熵损失(Cross Entropy Loss/Softmax Loss):用于逻辑回归问题;
- 平方损失(Square Loss):用于最小二乘问题;
- 指数损失(Exponential Loss):主要用于Adaboost集成学习算法中;
- 其他特定场景有奇效的loss
Hinge Loss
损失函数是一个折线,函数表达式为:
如果类别正确,损失为0,否则为\(1-f(m_i,w)\)。
在svm中,考虑松弛变量,优化函数为:
约束进行变形得:\(\zeta_i \geq 1-y_iw^Tx_i\)
优化损失函数进一步可写为:
SVM的损失函数实质可看作是L2-norm和Hinge loss之和。
Softmax Loss
逻辑回归问题要求:\(P(Y|X)\)尽可能的大,即最小化负的似然函数。
逻辑回归的表达式为:
得:
最大log似然函数为:
上式也是最小化交叉熵。
Squares Loss
损失函数:
Exponentially Loss
损失函数:
Adabooost 的目标式子就是指数损失,可以参考https://en.wikipedia.org/wiki/AdaBoost
假设数据集 \(\{(x_1, y_1), \ldots, (x_N, y_N)\}\),\(x_i\)相应的标签\(y_i \in \{-1, 1\}\), 已有的弱分类器组 \(\{k_1, \ldots, k_L\}\),它们的输出为 \(k_j(x_i) \in \{-1, 1\}\)。\(m-1\)次迭代后,得到boosted classifier:
第m次迭代后,我们添加了新的弱分类器:
为了确定新的弱分类器及其权重,定义损失函数:
设\(w_i^{(1)} = 1\) , \(w_i^{(m)} = e^{-y_i C_{m-1}(x_i)}\) for \(m > 1\), 则:
我们把数据分为两部分: (\(y_i k_m(x_i) = 1\))\(k_m\) 分类器区分正确和 \(y_i k_m(x_i) = -1\) 分类错误:
因为只有右侧项\(\sum_{y_i \neq k_m(x_i)} w_i^{(m)}\)依赖于\(k_m\),我们最小化\(E\) 等价于最小化\(w_i^{(m)} = e^{-y_i C_{m-1}(x_i)}\)的权重。
计算\(\alpha_m\),求导:
弱分类器的加权错误率为\(\epsilon_m = \sum_{y_i \neq k_m(x_i)} w_i^{(m)} / \sum_{i=1}^N w_i^{(m)}\)
所以: