支持向量机及核函数
常见核函数
线性核 (linear kernel):$$K(x_1,x_2)=x_1\cdot x_2+c$$
多项式核 (polynomial kernel):$$K(x_1, x_2)=(x_1\cdot x_2 +c)^d$$其中 \(d\ge1\),为多项式的次数。
感知器核 (Sigmoid kernel):$$K(x_1, x_2)=tanh(\beta(x_1\cdot x_2)+c)$$其中 \(tanh\) 为双曲正切函数,\(\beta>0,\ \theta<0\)。
高斯核 (Gaussian kernel): $$K(x_1,x_2)=\exp(-\dfrac{\left|x_1-x_2\right|2}{2\sigma2}), 也记作:\exp(-\gamma \left|x_1-x_2\right|2), \gamma=\frac{1}{2\sigma2}$$其中 \(\sigma>0\),为高斯核的带宽(width)。高斯核 也称作 径向基核(RBF)
拉普拉斯核 (Laplace kernel):$$K(x_1, x_2)=\exp(-\dfrac{\left|x_1-x_2\right|}{\sigma}),\ \sigma>0$$
核函数的形式可看出 高斯核 和 拉普拉斯核 为 平移不变核,多项式核 和 感知器核 为 内积核函数,为 旋转不变核。
核函数的本质
将原始输入空间映射到新的特征空间,从而,使得原本线性不可分的样本可能在核空间可分。有效的核函数一定是对称半正定的;往往依赖先验领域知识验证等方案才能选择有效的核函数。
SVM 的参数
1.参数 \(C\):
显然,\(C\) 越大,对样本分类正确的要求越严格,间隔宽就带越窄;同时也导致易过拟合。\(C=+\infty\) 则 软间隔SVM 退化为 硬间隔SVM。
2.高斯核的参数 \(\gamma\) (\(\gamma =\frac{1}{2\sigma^2}\)):
显然 \(\sigma\) 和 \(\gamma\) 成反比关系,对于类似于高斯分布形式的 高斯核 而言,\(\gamma\) 越小,PDF(概率密度函数,Probability Density Function)平均,趋近于直线(矮胖);越大,PDF 越集中(高瘦)。
邹博:PDF趋近于直线 即 近似于线性核,分类能力弱化。因为 \(\gamma\) 很小时,通常在 \(\gamma<0.1\) 时就有:\(x_1\cdot x_2 \approx \exp(-\gamma\left\|x_1-x_2\right\|^2)\)。
小结:
1. \(C\) 的大小控制了分隔带宽的大小,惩罚 \(C\) 越大,带宽越小,训练样本上的分类能力越强,容易发生过拟合。
2. \(\gamma\) 控制了分隔线的非线性程度,\(\gamma\) 越大,非线性程度越大,分类能力越强,容易发生过拟合。
\(C\) 和 \(\gamma\) 越大,训练样本上分类能力越强,同时也容易发生过拟合。
参考下图结果: