libsvm使用步骤

转载自：http://blog.renren.com/share/201313277/12978504740#nogo

一、Libsvm之初相识

1、libsvm简介（略）

Libsvm主要是用来模式识别与回归，这部分可以自己上网去看，在此略。

2、Libsvm、python、gnuplot下载

会不会奇怪为什么还要下载python和gnuplot这两个软件很重要，是后面搜索最优参数要用到的，也是很关键的一步。

我用的版本：libsvm-3.12,Python2.4，对于gnuplot，我用的是gp400win32.zip，下面是下载地址：

Libsvm-3.12:http://www.csie.ntu.edu.tw/~cjlin/(libsvm创始人台湾大学林智仁副教授个人主页)
Python2.4：http://download.csdn.net/detail/linghu9990/3512232（这个是不要积分的）

gp400win32.zip：http://ishare.iask.sina.com.cn/f/14895214.html?from=like

Gridregression.py：http://download.csdn.net/detail/killa11/2225384

将其复制到libsvm下的python2.4文件夹下。

将Libsvm-3.12和gp400win32.zip解压，这两个都不用安装。Python2.4要安装。下面是它们的路径（个人习惯，可以重命名文件或者对文件夹进行整理，以便后续运行）：

Libsvm：G：\shukong下面（这里我将libsvm-3.12重命名为libsvm）

Python：G：\shukong\libsvm下面（python2.4重命名为python）记得将python下面的python.exe复制到libsvm下的tools中

gp400win32.zip:G:\shukong\libsvm下面（只保留了gnuplot这个文件夹）

3、环境变量的设置以及如何在DOS下寻找路径

1）环境变量的设置（不明白为什么要设置环境变量@_@，但为了避免后续出了问题不知怎么解决，还是设置了）

添加环境变量到path:右击“计算机（我的电脑）”->属性->高级系统设置->高级->环境变量->系统变量列表里双击path在变量值最后添加“;G:\shukong\libsvm\windows”，这就对Libsvm环境变量设置好了，然后设置python环境变量，也和上面一样，在变量值最后添加“;G:\shukong\libsvm\tools”。如图1：

2）如何在DOS下寻找路径（这部分会的可以不用看，像我这种菜鸟，还是百度才知道的%>_<%）

点击“开始”按钮，进入“命令提示符”，默认路径是“C:\User\acer>”。这里有两种情况：一是像我是放在G盘的，所以要将路径改为G盘，方法是：直接在命令提示符里输入“G：”然后回车，就进入G盘的根目录了。如图2：

还有就是虽然在C盘，但是不在“C:\User\acer>”，这时就先要进入C盘的根目录，方法如下：在命令提示符下输入“cd\”然后回车即可。如图3：

以上两种情况，进入根目录以后，我们就可以进入libsvm的路径，在这里，我们先进入“G:\shukong\libsvm>”（只是我自己在G盘，你要根据自己实际路径进入）,方法如下：

在命令提示符中输入“cd shukong”,然后回车，再输入“cd libsvm”然后回车即可。如图4：

二、Libsvm之再体验

怎么样，初相识还不是很难的吧，下面个人感觉就有点麻烦了。大家耐心哈。

1、将原始数据改为libsvm所规定的数据格式。

该软件使用的训练数据和检验数据文件格式如下：

[label] [index1]:[value1] [index2]:[value2] …

目标值第一维特征编号：第一维特征值第二维特征编号：第二维特征值…

例如：2.3 1:5.6 2:3.2

表示训练用的特征有两维，第一维是5.6，第二维是3.2，目标值是2.3

原始数据改为libsvm所规定的数据格式有2种方法：

1）使用网络上FormatDataLibsvm.xls来完成（我的excel版本不支持宏命令，所以此种方法没有用）。

FormatDataLibsvm.xls使用说明：

a. 先将数据按照下列格式存放（注意label放最后面）：

value1 value2 … label

…

value1 value2 … label

b. 然后将以上数据粘贴到FormatDataLibsvm.xls中的最左上角单元格，接着工具->宏->执行FormatDataToLibsvm宏。就可以得到libsvm要求的数据格式。

2）采用编程实现

a. 先将数据按照下列格式存放（注意label放最后面）：

value1 value2 … label

…

value1 value2 … label

b.本人使用的是简单的matlab编程来实现（以下是本人部分数据）

原数据(data1.txt)如图5：

转换之后的数据(svmdata1.txt)如图6：

用matlab进行数据转换之后，把svmdata1.txt复制到libsvm文件夹下的tools文件夹即可。

3）数据格式转换好了，那么在libsvm的tools文件夹下还有一个工具，可以用来检查你的数据格式是否正确，那就是checkdata.py。方法是：

打开"命令提示符"，进入到libsvm中的tools文件夹下，（怎么样进入我已在上面介绍过），然后输入命令“checkdata.py svmdata1.txt”回车，若显示“No error”，则表示数据格式正确。我的数据结果如图7。（注：如果用这个matlab程序转换的话，一定是no error的。^_^）

这一步一般不会有太大的问题。

2、用svm-scale.exe对数据集进行归一化处理。

因为原始数据可能范围过大或过小, svmscale可以先将数据重新scale (縮放) 到适当范围使训练与预测速度更快。通常将数据缩放至[-1,1]或者[0,1]之间。

使用方法:svm-scale.exe [-l lower] [-u upper] [-y y_lower y_upper] [-s save_name] [-r store_name] filename；其中

-l：数据下限标记；

lower：缩放后数据下限缺省值： lower = -1；

-u：数据上限标记；

upper：缺省值： upper = 1，代表着没有对y进行缩放；

-y：是否对目标值同时进行缩放；

y_lower：为下限值；

y_upper：为上限值；（回归需要对目标进行缩放，因此该参数可以设定为 –y -1 1 ）；

-s save_name：表示将缩放的规则保存为文件save_name；

-r store_name：表示将缩放规则文件store_name载入后按此缩放；

filename：待缩放的数据文件（要求满足前面所述的格式）。

在进行这一步的时候，我们要用到的数据是上一步已经改好格式的数据，即svmdata1.txt，所以要把svmdata1.txt复制到libsvm中的windows文件夹下。

具体操作，打开“命令提示符”，进入libsvm中的windows下，输入命令“svm-scale.exe -l 0 -u 1 svmdata1.txt>data.txt”。如图8。

这里，我们把svmdata1.txt里面的数据缩放为[0,1]之间，并另存为data.txt，这时，在windows下面会多出一个data.txt，里面就是你要的数据。我没有保存规则，就不用-s。这里也有几个问题：

a.请看下图9：

和上图对比，感觉输入的命令是一样的，但是却提示错误，打开data.txt却并没有数据，却是英文的svm-scale的用法，刚开始，一直这样，我痛苦死了，后来仔细一看才明白，原来那个是英文的‘l’而我写的是数字‘1’，这样一改就好了。图10：

归一化后的数据如图11：

可以看到前几行索引没有‘3’，这是因为索引为‘3’的value是0，所以为了节省内存，就不显示了，这并不是错误，不要担心。

3、用gridregression.py搜索最优参数，主要是c和g。

数据都准备好了之后，就可以用svm-train来训练模型了，然而，了解svm-train的都知道，训练的时候又很多的参数，而这些参数又不能随便选，会有最优的，但是人工去选的话，会很麻烦，我看好多人都说用libsvm自带的grid.py进行参数的搜索，但是我查了，也实践了，好像grid.py不支持回归的，于是我用gridregression.py来搜索最优参数。

有关gridregression.py的下载，在第一步已经说了，不在赘述。先打开gridregression.py，注意用Eidt with IDLE打开，然后里面有些参数要改一下。

改前如图12：

改后如图13：

其实要改的就这些，主要是把svmtain_exe和gnuplot_exe的路径改为自己的路径就行。

然后就可以进行寻优了。要先把路径调好，注意调到G:\shukong\libsvm\python2.4下。

然后输入下面的语句：python G:\shukong\libsvm\python2.4\gridregression.py -svmtain G:\shukong\libsvm\windows\svm-train.exe -gnuplot G:\shukong\libsvm\gnuplot\bin\pgnuplot.exe -log2c -10,10,1 -log2g -10,10,1 -log2p -10,10,1 -v 10 -s 3 -t 2 G:\shukong\libsvm\tools\data.txt如图14：

这个比较多字母，容易输错，我是在worrd文档里键入，然后复制到命令提示符中，回车，就开始跑了，在命令提示符窗口中看到运行过程。过程可能会比较长，我的数据少，很快就有结果了。

另：我在网上看的，如果输入python G:\shukong\libsvm\python2.4\gridregression.py -svmtain G:\shukong\libsvm\windows\svm-train.exe -gnuplot G:\shukong\libsvm\gnuplot\bin\pgnuplot.exe -log2c -10,10,1 -log2g -10,10,1 -log2p -10,10,1 -v 10 -s 3 -t 2 G:\shukong\libsvm\tools\data.txt>gridregression_data.parameter比上面的输入多了最后的“>gridregression_data.parameter”，表示将结果保存在gridregression_data.parameter中，会在python文件夹中多出一个gridregression_data.parameter文件，但是在命令提示符中不会看到运行过程，这种方法我也尝试了，但是时间会非常长，大概花了4个小时，而且网上用这个方法的人也是运行了大概24小时，还是没结束，所以，还是不要保存为好，用上面的输入就行。寻优结果如图15：

可以看到寻优的过程，只需关注最后一行即可。最后一行分别为c,g,p,mse,一般来说mse这个参数不是很重要，是越小越好吧（至于为什么是越小越好，我也不清楚哇~~）。

4、用svm-train训练模型。

svmtrain我们在前面已经接触过，他主要实现对训练数据集的训练，并可以获得SVM模型。

用法： svmtrain [options] training_set_file [model_file]

其中，options为操作参数，至于参数的可的选项及表示的涵义，大家可以在livbsvm中自带的readme里面看得到，很详细，不再赘述。这里只介绍我所选择的参数及其值。

打开命令提示符，进入G:\shukong\libsvm\windows然后输入“svm-train -s 3 -t 2 -c 1024.0 -g 4 .0 -p 0.0625 data.txt”,这里-s是选择SVM的类型。对于回归来说，只能选3或者4，3表示epsilon-support vector regression, 4表示nu-support vector regression。-t是选择核函数，通常选用RBF核函数。然后c,g,p我们已经寻出，直接运行即可。如图16：

#iter 为迭代次数， nu 与前面的操作参数 -n n 相同， obj 为 SVM 文件

转换为的二次规划求解得到的最小值， rho 为判决函数的常数项 b ， nSV 为支持

向量个数， nBSV 为边界上的支持向量个数， Total nSV 为支持向量总个数。

这时在windows中会生成一个data.txt.model文件。可以用来进行下面的预测了。

5、用svm-predict预测。

vmpredict 是根据训练获得的模型，对数据集合进行预测。

用法：svmpredict [options] test_file model_file output_file

其中，options为操作参数，可用的选项即表示的涵义如下所示:

-b probability_estimates——是否需要进行概率估计预测，可选值为0 或者1，默认值为0。

model_file ——是由svmtrain 产生的模型文件；

test_file—— 是要进行预测的数据文件，格式也要符合libsvm格式，即使不知道label的值，也要任意填一个，svmpredict会在output_file中给出正确的label结果，如果知道label的值，就会输出正确率；

output_file ——是svmpredict 的输出文件，表示预测的结果值。

还是在命令提示符windows下输入“svm-predict test.txt data.txt.model out.txt”，如图17：

可以看到，第一行是均差，第二行是相关系数，预测结果还是不错的。如果预测结果不好，一可能是你的参数选择不当，还可能是你的特征值选择的有问题。

另外，在windows下会生成一个out.txt文件，可以打开看一下和test.txt文件的差别。

这里面有一些是需要注意改正的地方:

这几个压缩包，最好和博客上说明的版本号一样，不然在gridregression.py调用时会出项语法问题。搜索最优参数时，gridregression.py中的路径必须和cmd命令行中的严格一致。因为路径下有文件夹名字program files，文件夹名字中间有空格的话，识别不到，所以创建一个镜像，例如在cmd中输入 subst w: "D:\program files" 然后可以直接用w:\代替D:\program files了。所以，在gridregression.py文件中，所有的D:\program files也要用w：来表示。开始时没有对应，出现了worker local quit的错误。worker local quit的原因是数据文件为空，或者数据文件太大，出现内存溢出。

有两个博文可以值得学习：

http://blog.sina.com.cn/s/blog_5980835e0100drwx.html

http://blog.sina.com.cn/s/blog_5980835e0100dp52.html

http://freehello.blogspot.com/2009/04/libsvm.html

posted on 2014-07-17 14:06 夏鸥易阅读(1335) 评论(0) 编辑收藏举报

刷新页面返回顶部

学习记录

libsvm使用步骤

导航

公告