SVM公式详解

点(x,y)到平面(w,b)的距离公式是:$\gamma=\frac{1}{||w||}y(xw+b)$。我们称之为几何间隔。另外$\hat{\gamma}=y(xw+b)$记为函数间隔。

SVM的基本思路就是,寻找一个能够正确划分数据集,并且几何间隔最大的超平面。这个目标可以表达为:

$$\max_{w,b}{\gamma} , \ s.t., \ \frac{1}{||w||}y_i(wx_i + b) \geq \gamma$$

可以改写为:

$$\max_{w,b}{\frac{\hat{\gamma}}{||w||}} , \ s.t., \ y_i(wx_i + b) \geq \hat{\gamma}$$

实际上,可以按比例将$w$和$b$改成合适的大小,使$\hat{\gamma}=1$,即

$$\max_{w,b}{\frac{1}{||w||}} , \ s.t., \ y_i(wx_i + b) \geq 1$$

最大化$\frac{1}{||w||}$和最小化$||w||$是一样的,也就是和最小化$\frac{1}{2}||w||^2$是一样的(这样方便后续计算),所以我们的目标函数变成了

$$ \min_{w,b}{\frac{1}{2}||w||^2} , \ s.t., \ y_i(wx_i + b) \geq 1 $$

但是这个带约束条件的优化很难求解,于是这里用到了拉格朗日对偶。定义拉格朗日函数:

$$L(w,b,\alpha)=\frac{1}{2}||w||^2 - \sum_{i}\alpha_i({y_i(wx_i + b)-1})$$ 其中$\alpha$是拉格朗日乘子

我们定义$\theta(w,b)=\max_{\alpha,\alpha \geq 0}{L(w,b,\alpha)}$,当${y_i(wx_i + b)-1} \leq 0$时,我们一定可以通过调整$\alpha$的值来是$\theta$为正无穷,这样我们把原问题转化为

$$\min_{w,b}{\theta(w,b)}=\min_{w,b}{\max_{\alpha,\alpha \geq 0}{L(w,b,\alpha)}}$$

这样的最小值一定满足那些约束条件。这里我们可以得到对偶问题:$\max_{\alpha,\alpha \geq 0}{\min_{w,b}{L(w,b,\alpha)}}$

这个对偶问题把w,b放在内层中,比较好求解。对于一般的问题,有$d \leq p$。对于满足强对偶条件的问题,有$d = p$,即原问题的解和对偶问题的解是一样的。

对于强对偶问题,$w^*,\alpha^*$是一组解的充要条件是满足下面的KKT条件:

$$\nabla_w L(w^*,\alpha_*)=0\\ \nabla_\alpha L(w^*,\alpha_*)=0\\ \alpha^* g(w_*)=0\\g(w_*) \leq 0\\ \alpha \geq 0$$

回到SVM的优化问题,由KKT条件可知,$\min_{w,b}{L(w,b,\alpha)}$的解满足

$\nabla_w L()=0 \Rightarrow w=\sum_{i}{\alpha_i y_i x_i}$,$\nabla_b L()=0 \Rightarrow \sum_i{a_i y_i}=0$

把w和b重新带入到L函数中,得到:$L(w,b,\alpha)=\sum_i{\alpha_i}-\frac{1}{2}\sum_{i,j}{y_i y_j \alpha_i \alpha_j (x_i)^T x_j} ,\ s.t. \ \alpha \geq 0, \sum_i{\alpha_i y_i}=0$

到这里,式子中只剩下了$\alpha$这一个变量。那么我们剩下的步骤就是求解$\max_{\alpha, \alpha \geq 0}{L(w,b,\alpha)}$。

一旦求出了$\alpha$,w可以通过$ w=\sum_{i}{\alpha_i y_i x_i}$得到,为了满足正负样本的支持向量到超平面的距离相等,b的值为$b=\frac{1}{2}(\min_{y_i=1}{wx_i} + \max_{y_i=-1}{wx_i})$

 

在讲如何计算$\alpha$的值之前,还要引入一个概念,那就是软间隔。我们之前讨论的情况都是建立在样例线性可分的假设上,当样例线性不可分时,我们需要将模型进行调整,以保证在不可分的情况下,也能够尽可能地找出分隔超平面。

$$\min_{\gamma, w, b}{\frac{1}{2}||w||^2+C\sum_i{\zeta_i}}, \ s.t. \ y_i(wx_i+b) \geq 1-\zeta_i, \zeta_i \geq 0$$

引入松弛变量$\zeta$之后,就允许某些样例的间隔小于1。C越大表示越不能接受离群点。再次建立新的拉格朗日函数:

$$L(w,b,\alpha)=\frac{1}{2}||w||^2 + C\sum_i{\zeta_i} - \sum_{i}\alpha_i({y_i(wx_i + b)-1+\zeta_i})-\sum_i{\beta \zeta_i}$$

由KKT条件可以知道,

$ \nabla_w{L}=0 \Rightarrow w=\sum_i{\alpha_i y_i x_i}\\ \nabla_b{L}=0 \Rightarrow \sum_i{\alpha_i y_i} = 0\\ \nabla_\zeta{L}=0 \Rightarrow \alpha_i = C- \beta_i\\ \alpha_i \geq 0, \beta_i \geq 0 \Rightarrow 0 \leq \alpha_i \leq C$

把w和b重新带入到L函数中,得到新的最优化函数:$\max_{\alpha}{L(w,b,\alpha)}=\sum_i{\alpha_i}-\frac{1}{2}\sum_{i,j}{y_i y_j \alpha_i \alpha_j (x_i)^T x_j} ,\ s.t. \ 0 \leq \alpha \leq C , \sum_i{\alpha_i y_i}=0$

 

下面开始讲如何计算$\alpha$的值——SMO算法。SMO算法是一种启发式算法,目标是使所有的$\alpha$满足KKT条件。为了达到这个目标,算法每次取两个变量,固定其它变量,每次只优化这两个变量。这个优化两个变量的子问题可以简单地通过求导的方法求解。这里为什么是两个变量?因为我们的约束条件中有$\sum_i{\alpha_i y_i}=0$,确定一个变量的时候,另一个变量也就随之确定了。

现在假设选择的两个变量是$\alpha_1, \alpha_2$,其它变量是固定的。于是最优化问题可以重写成:

$$\min_{\alpha}{L(w,b,\alpha)}=\frac{1}{2}K_{11}\alpha_1^2+\frac{1}{2}K_{22}\alpha_2^2+K{12} y_1 y_2 \alpha_1 \alpha_2 +y_1 v_1 \alpha_1 +y_2 v_2 \alpha_2 - \alpha_1 - \alpha_2 + (const)$$

其中$v_i = \sum_{j=3}{y_j \alpha_j K_{ij}}$。

另外还有:$y_1 \alpha_1 = -\sum_{i=3}{y_i \alpha_i} - y_2 \alpha_2 = D - y_2 \alpha_2$,D表示一个常数。把这个式子继续代入优化函数中:

$$L()=\frac{1}{2}K_{11}(D - y_2 \alpha_2)^2+\frac{1}{2}K_{22}\alpha_2^2+K_{12} y_1 y_2 (D - y_2 \alpha_2) \alpha_2 +y_1 v_1 (D - y_2 \alpha_2) +y_2 v_2 \alpha_2 -(D - y_2 \alpha_2) - \alpha_2$$

对$\alpha_2$求导数:

$\frac{\partial L}{\partial \alpha_2} = K_{11} \alpha_2 + K_{22} \alpha_2 - 2K_{12} \alpha_2 - K_{11} D y_2 + K_{12} D y_2 + y_1 y_2 - 1 - v_1 y_2 + v_2 y_2$

$\frac{\partial L^2}{\partial \alpha_2^2} = K_{11} + K_{22} - 2K_{12}$

 一般情况下二阶导数大于0,当$x_1,x_2$完全相同时,会出现二阶导数等于0的情况,此时L是单调函数,最小值在边缘处取到,直接将左边缘和右边缘带入就可以知道哪个是最小值了。

考虑二阶导数大于0的情况,最小值在导数等于0的地方取到。通过简单计算可以得到,

$$\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{K_{11}+K_{22}-2K_{12}}$$

其中$E_i=wx_i+b-y_i=\sum_j{\alpha_j y_j K_{ji}}+b - y_i$

再来看$\alpha_2$的取值范围。假设$y_1=y_2$,有

$$\left\{ \begin{array}{lr} \alpha_1 + \alpha_2 = \alpha_1^{old} + \alpha_2^{old}, \\ 0 \leq \alpha_1 \leq C, & \Rightarrow max(0,a_2^{old}+a_1^{old}-C) \leq \alpha_2 \leq min(C, a_2^{old}+a_1^{old}-C)) \\ 0 \leq \alpha_2 \leq C, \end{array} \right.  $$

同理可以得到$y_1 \neq y_2$时候的范围。$max(0,a_2^{old}-a_1^{old}) \leq \alpha_2 \leq min(C, C + a_2^{old} - a_1^{old}))$

对之间求出来的$\alpha_2^{new,unc}$按照这个取值范围剪辑一下就能得到最后的$\alpha_2^{new}$。

在每次完成两个变量的优化之后,我们需要重新计算b。当$0 < \alpha_1 < C$时,由KKT条件可知:$0 < \alpha_1 < C \Rightarrow y_1(wx_1 + b) = 1 \Rightarrow \sum_i{\alpha_i y_i K_{i1} + b } = y_1$

于是,$b_1^{new} = y_1 - \sum_{i=3}{\alpha_i y_i K_{i1}} - \alpha_1^{new}y_1 K_{11} - \alpha_2^{new}y_2 K_{21}\\= -E_1 - y_1 K_{11}(\alpha_1^{new} - \alpha_1^{old}) - y_2 K_{21}(\alpha_2^{new} - \alpha_2^{old}) + b^{old}$

同理可以得到$b_2^{new}$

posted @ 2017-07-01 16:22  BlueMandora  阅读(2174)  评论(0编辑  收藏  举报