SVM核函数理解
在对多维特征空间\(\mbox{V}_n\)的样本进行分类时,\(\mbox{V}_n\)中样本点的相似度使用内积进行计算,这是因为内积的本质就是计算\(\bf{x_1}\)在\(\bf{x_2}\)上的投影大小。但是这种计算方式与样本点的“位置”(即样本特征与原点的距离)相关,也就是说如果\(\bf{x_1}\)扩大到了\(2\bf{x_1}\),则它与\(\bf{x_2}\)的内积也会扩大至原来的两倍,但是由下图可知,\(\bf{x_1}\)与\(\bf{x_2}\)的相似度并不会逊于\(2\bf{x_1}\)与\(\bf{x_2}\)的相似度。同样的,如果使用余弦相似度也会这种情况,即夹角变小但是距离不变。
所以我们希望找到一种映射关系,使得两个样本之间的相似度只与距离\(\norm{\bf{x_2}-\bf{x_1}}\)有关,也就是说与起点(即样本空间的原点)无关!幸运的是,广义平稳过程正是我们要找的,因为在这种过程下进行的采样就是自相关的(也就是与起点无关,只与采样间隔有关)。所以我们将\(\bf{x_1}\)视为当前信号时刻、\(\bf{x_2}\)视为延迟后信号时刻,即将样本特征空间视为时域,这样就可以借用自相关函数来计算样本之间的相似度。
自相关函数定义为:
所以我们的任务就是找到一种波包(或称为映射关系)\(f(x)\),满足\(\Gamma_f=[\gamma_f(x_j-x_i)]\)为半正定矩阵。需要注意的是,\(f\)本身是与起点相关的映射,但是通过自相关卷积之后就与起点无关了,可以理解为\(dx\)积分将\(x\)消去了,只剩下\(\norm{x_2-x_1}\)。为了将波包函数内积与样本空间内积组成映射关系,我们记:
并将\(\kappa\)称为核函数,而\(f\)就被称为核函数背后隐藏的映射。
</body>