数据科学家成长之旅

关注 机器学习,深度学习,自然语言处理,数学

支持向量机及核函数

常见核函数

线性核 (linear kernel):$$K(x_1,x_2)=x_1\cdot x_2+c$$
多项式核 (polynomial kernel):$$K(x_1, x_2)=(x_1\cdot x_2 +c)^d$$其中 \(d\ge1\),为多项式的次数。

感知器核 (Sigmoid kernel):$$K(x_1, x_2)=tanh(\beta(x_1\cdot x_2)+c)$$其中 \(tanh\) 为双曲正切函数,\(\beta>0,\ \theta<0\)

高斯核 (Gaussian kernel): $$K(x_1,x_2)=\exp(-\dfrac{\left|x_1-x_2\right|2}{2\sigma2}), 也记作:\exp(-\gamma \left|x_1-x_2\right|2), \gamma=\frac{1}{2\sigma2}$$其中 \(\sigma>0\),为高斯核的带宽(width)。高斯核 也称作 径向基核(RBF)

拉普拉斯核 (Laplace kernel):$$K(x_1, x_2)=\exp(-\dfrac{\left|x_1-x_2\right|}{\sigma}),\ \sigma>0$$

  核函数的形式可看出 高斯核拉普拉斯核平移不变核多项式核感知器核 为 内积核函数,为 旋转不变核
  

核函数的本质

  将原始输入空间映射到新的特征空间,从而,使得原本线性不可分的样本可能在核空间可分。有效的核函数一定是对称半正定的;往往依赖先验领域知识验证等方案才能选择有效的核函数。

SVM 的参数

1.参数 \(C\)

  显然,\(C\) 越大,对样本分类正确的要求越严格,间隔宽就带越窄;同时也导致易过拟合。\(C=+\infty\) 则 软间隔SVM 退化为 硬间隔SVM。

2.高斯核的参数 \(\gamma\) (\(\gamma =\frac{1}{2\sigma^2}\)):

  显然 \(\sigma\)\(\gamma\) 成反比关系,对于类似于高斯分布形式的 高斯核 而言,\(\gamma\) 越小,PDF(概率密度函数,Probability Density Function)平均,趋近于直线(矮胖);越大,PDF 越集中(高瘦)。
  邹博:PDF趋近于直线 即 近似于线性核,分类能力弱化。因为 \(\gamma\) 很小时,通常在 \(\gamma<0.1\) 时就有:\(x_1\cdot x_2 \approx \exp(-\gamma\left\|x_1-x_2\right\|^2)\)
  
小结:

  1. \(C\) 的大小控制了分隔带宽的大小,惩罚 \(C\) 越大,带宽越小,训练样本上的分类能力越强,容易发生过拟合。
  2. \(\gamma\) 控制了分隔线的非线性程度,\(\gamma\) 越大,非线性程度越大,分类能力越强,容易发生过拟合。
  \(C\)\(\gamma\) 越大,训练样本上分类能力越强,同时也容易发生过拟合。
  
  参考下图结果:

posted on 2017-03-10 09:40  会飞的蝸牛  阅读(1551)  评论(0编辑  收藏  举报

导航