统计学习方法 李航 支持向量机
实际上这里从线性可分支持向量机到线性支持向量机再到非线性支持向量机,就是从特殊到一般的过程.
这里介绍了函数间隔和几何间隔,这里前面乘以y的目的就是为了保证得到的值为正;注意定义中是间隔还是间隔的最小值;先引入函数间隔,然后为了规范化又引入了几何间隔(这里我感觉类似于向量中的单位向量,即用向量除以模长).
关于间隔最大化,网上看到篇博客是这么描述的:到样本中最近的点最远,感觉很形象;网上还有个证明说误差次数的上界是由几何距离决定的,这也就是为什么u间隔最大化的原因;这里关键是前一节中样本集的几何间隔的定义,是所有几何间隔中的最小值;大致过程,列出约束最优化问题,然后化简,得到凸二次规划问题,然后求解即可;后面是证明该解的存在唯一性(可忽略);还有个关键点就是理解支持向量和间隔.
上一小节讲到最后求解凸二次规划问题,这里便给出解法;流程大概是先用拉格朗日函数得到等价的无约束问题(这步书中省略了),然后写出其对偶问题,(大概原理:然后根据弱对偶性得出对偶问题的解是原问题解的下界,又因为此问题满足kkt条件,所以转化成了强对偶性,因此这两个问题解等价),就变成了求解对偶问题,对偶问题先求内侧min的w,b,然后用$\alpha$替换掉w,b,再进一步求解外侧max的$\alpha$,求解出$\alpha$后再带入,便得到了w,b(事实上这里它也并未说明关于$\alpha$的式子如何求解,网上看到别人说是用smo算法求解的,没错,是这样的,可看7.4节第一段对此算法的描述).
这里事实上应该是近似线性可分才用这种软间隔,否则一般的不可分应该用后面提到的核函数.
注意这里的松弛并非是对所有的点,而好似对一些不正常的点而言的,对于正常的点而言,松弛是为0的;惩罚因子C是表明对不正常点的重视程度的,因此,若C趋近无穷,则就变成了硬间隔了,因此可以认为硬间隔是一种特殊情况.
事实上这里的解法和线性可分是类似的,当然其中也有少量差别,因此不再重复.
这里有点晕晕的,反正我是只知道在软间隔内是会存在点的.
不太理解这个合页损失函数和整个章节之间的关系.
通俗点来讲,就是通过空间转换,即低维度转向高维度,将非线性映射成线性或者近似线性来求解,即更加的一般化,这里涉及到了非线性变换,(貌似我们线代老师提到过,原来它可以用在这个地方,深刻感受到仿佛是<数学之美>中的故事一样);这一小节我基本上就了解了个它的大概思想,实际上里面很多都没怎么看懂.
网上别人博客中说核函数可以理解为就是输入两个低维度的向量,输出高维度的内积.
看不太懂.
说了下几个常用的核函数,之后对字符串那个的解释也看不懂.
大概说了下算法流程,其实和前面也类似,主要有个核方法.
接下来这一大节主要介绍了smo算法,没怎么具体看,感觉应该也看不懂,就不做具体解释了.
参考:
统计学习基础
https://blog.csdn.net/u010140338/article/details/13509897 很多细节原理都涉及到了
https://blog.csdn.net/b285795298/article/details/81977271 整个流程思路很清晰
https://www.cnblogs.com/ooon/p/5723725.html 拉格朗日那一块讲的非常清楚