LibSVM中的数据格式

该软件使用的训练数据和检验数据文件格式如下:

<label> <index1>:<value1> <index2>:<value2> ...

 其中<label> 是训练数据集的目标值,对于分类,它是标识某类的整数(支持多个类);对于回归,是任意实数。<index> 是以1开始的整数,可以是不连续的;<value>为实数,也就是我们常说的自变量。检验数据文件中的label只用于计算准确度或误差,如果它是未知的,只需用一个数填写这一栏,也可以空着不填。在程序包中,还包括有一个训练数据实例:heart_scale,方便参考数据文件格式以及练习 使用软件。

对于多分类的情况,比如8分类。一般情况,二类分类器只是将数据集分为正一和负一,如果要构造多类分类器,通常情况是将多类分类器转换了多个二类分类器,如label为:1,2,3,4,5,6,7,8
需要转换为:
-1 -1 -1
-1 -1 +1
-1 +1 -1
-1 +1 +1
+1 -1 -1
+1 -1 +1
+1 +1 -1
+1 +1 +1
这样,只需要构造三个二类分类器就可以解决你的问题。

posted @ 2010-03-28 21:21  大CC  阅读(3905)  评论(1编辑  收藏  举报
木书架 大CC的博客