SVM核函数理解

<body>

在对多维特征空间\(\mbox{V}_n\)的样本进行分类时,\(\mbox{V}_n\)中样本点的相似度使用内积进行计算,这是因为内积的本质就是计算\(\bf{x_1}\)\(\bf{x_2}\)上的投影大小。但是这种计算方式与样本点的“位置”(即样本特征与原点的距离)相关,也就是说如果\(\bf{x_1}\)扩大到了\(2\bf{x_1}\),则它与\(\bf{x_2}\)的内积也会扩大至原来的两倍,但是由下图可知,\(\bf{x_1}\)\(\bf{x_2}\)的相似度并不会逊于\(2\bf{x_1}\)\(\bf{x_2}\)的相似度。同样的,如果使用余弦相似度也会这种情况,即夹角变小但是距离不变。

内积与原点有关

所以我们希望找到一种映射关系,使得两个样本之间的相似度只与距离\(\norm{\bf{x_2}-\bf{x_1}}\)有关,也就是说与起点(即样本空间的原点)无关!幸运的是,广义平稳过程正是我们要找的,因为在这种过程下进行的采样就是自相关的(也就是与起点无关,只与采样间隔有关)。所以我们将\(\bf{x_1}\)视为当前信号时刻、\(\bf{x_2}\)视为延迟后信号时刻,即将样本特征空间视为时域,这样就可以借用自相关函数来计算样本之间的相似度。

自相关函数定义为:

\[\begin{aligned} \gamma_f(x_2-x_1)&\overset{def}{=}<f_{(x_2-x_1)}(x),\overline{f_{(x_1-x_2)}(x)}>\overset{def}{=}\int_{-\infty}^{+\infty}{f(x)}\overline{f(x-(x_2-x_1))}dx \\ &=\int_{-\infty}^{+\infty}{f(x-x_1)}\overline{f(x-x_2)}dx=<f_{x_1}(x),f_{x_2}(x)> \end{aligned} \]

所以我们的任务就是找到一种波包(或称为映射关系)\(f(x)\),满足\(\Gamma_f=[\gamma_f(x_j-x_i)]\)为半正定矩阵。需要注意的是,\(f\)本身是与起点相关的映射,但是通过自相关卷积之后就与起点无关了,可以理解为\(dx\)积分将\(x\)消去了,只剩下\(\norm{x_2-x_1}\)。为了将波包函数内积与样本空间内积组成映射关系,我们记:

\[\kappa<x_1,x_2>=\gamma_f(x_2-x_1)=<f_{x_1}(x),f_{x_2}(x)> \]

并将\(\kappa\)称为核函数,而\(f\)就被称为核函数背后隐藏的映射。

</body>
posted @ 2022-09-15 18:33  BNTU  阅读(49)  评论(0编辑  收藏  举报