LibSVM 安装使用
知道这个库已经很长的时间了,一直没有实践,以前也看过svm的理论,今天开始安装一下一直感觉有错误,结果自己傻了,根本没有错,可以直接使用。。。
libsvm参考资料:
libsvm下载网址:http://www.csie.ntu.edu.tw/~cjlin/libsvm/
我的系统环境为 Win7 64bit + Matlab R2014a ,下载的是最新版的libsvm-3.22
具体流程
- 下载:
从libsvm的主页下载合适的软件安装包,并解压,比如我解压到Matlab的Toolbox目录下,具体路径如下:....\Matlab\R2014b\toolbox
- 设置Path:
在Matlab中依次选择设置路径-添加并包含子文件夹..
,加入以上解压后存放的路径。 - 编译:
事实上,对于64位的系统,我们是不需要进行编译的,自带的软件包中已经包含了对应于64位系统的编译好的文件:libsvmread.mexw64、libsvmwrite.mexw64、svmtrain.mexw64、svmpredict.mexw64,以上文件位于压缩包'..\windows'
文件夹中。对于非64位系统,或者需要自己编译的特殊情况,采用如下de步骤编译自己的二进制文件。
- 在matlab中切换到解压后的
libsvm-3.22\matlab
目录(如我的系统为:...\Matlab\R2014b\toolbox\libsvm-3.20\matlab
) - 在命令窗口输入
mex -setup
,此时会提示你选择编译器,就选择一个已安装的编译器,如Microsoft Visual C++ 2013。之后Matlab会提示确认选择的编译器,输入y进行确认。 - 在命令窗口输入
make
,等待make完成,生成相应的后缀为mexw64(64位系统)或mexw32(32位系统)的文件。 - 这里要说明,其实前一步的
mex -setup
并不是必须的,在make
指令不奏效的时候调用一下即可;另外,在我的配置过程中,会提示有问题,大致如下所示, 其实并不需要在意,直接调用make
也会成功编译文件。
- 在matlab中切换到解压后的
MEX 配置为使用 ‘Microsoft Visual C++ 2013 Professional (C)’ 以进行 C 语言编译。
警告…您需要更新代码以利用新的 API。您可以在以下网址找到相关详细信息…先一直没有看到类似的:
mex -setup
显示Please choose your compiler for building external interface (MEX) files:Would you like mex to locate installed compilers [y]/n?
输入y
Select a compiler:[1] Lcc-win32 C 2.4.1 in D:\MATLAB\R2010a\sys\lcc[2] Microsoft Visual C++ 2008 SP1 in D:\Program Files\Microsoft Visual Studio 9.0[3] Microsoft Visual C++ 6.0 in D:\Program Files\Microsoft Visual Studio以为没有安装上,没有编译通过,结果是可以用的。load数据也有问题,路径不对:有两个数据集,一个是C++的, 一个是matlab的。libsvm库中下载的是C++数据,
所以matlab加载我们下载的heart_scale是会报错的:<这就是视频中遗漏的小问题>
- 重命名:
这并不是必须的操作,但鉴于个人的经验,建议执行。
编译完成后,在当前目录下回出现svmtrain.mexw64、svmpredict.mexw64(64位系统)或者svmtrain.mexw32、svmpredict.mexw32(32位系统)这两个文件,把文件名svmtrain和svmpredict相应改成libsvmtrain和libsvmpredict。
这是因为Matlab中自带有SVM的工具箱,而且其函数名字就是svmtrain和svmpredict,和libsvm默认的名字一样,在实际使用的时候有时会产生一定的问题,比如想调用libsvm的变成了调用Matlab SVM。
如果有进行重命名的,以后使用libsvm时一律使用libsvmtrain和libsvmpredict这两个名字进行调用。
特别补充:
以上是普通的libsvm在matlab 2014b 的设置,起初对于我而言,也是并不需要编译的,直接设置路径就可以使用libsvm,但是由于我需要使用对样本加权的训练方法,于是经过搜索,发现他们也是提供libsvm-weights-3.20版本的,参见这里,其中提供了Matlab和Python的接口,而并不存在已经编译好的文件,所以我需要进行编译并使用这一带权重的版本。
测试
以下测试是基于我配置的加权的libsvm的版本。
libsvm软件包下的heart_scale
和heart_scale.wgt
文件分别提供了样本的label及feature信息和权重信息。要注意对于以上两个文件,其读取指令是不同的,以下将简单演示:在matlab命令窗口执行如下命令:
[heart_scale_label, heart_scale_inst] = libsvmread('heart_scale'); %读取方法
heart_scale_weight = load('heart_scale.wgt');
model = libsvmtrain(heart_scale_weight, heart_scale_label, heart_scale_inst, '-c 1'); %改名字了吧 +lib
[predict_label, accuracy, dec_values] = libsvmpredict(heart_scale_label, heart_scale_inst, model);
结果如下:
*
optimization finished, #iter = 166
obj = -107.553365, rho = 0.449867
nSV = 131, nBSV = 103
Total nSV = 131
Accuracy = 86.2963% (233/270) (classification)
特别的,对于不需要对样本考虑权重的情况,只需要修改训练的指令为:
model = libsvmtrain([], heart_scale_label, heart_scale_inst, '-c 1');
ok,以上就是对于Matlab 2014a使用libsvm(libsvm-weights)的简要记录。
svmtrain函数相关参数说明
svmtrain函数返回的model可以用来对测试数据集进行预测。这是一个结构体变量,主要包括了以下几个域。[Parameters, nr_class, totalSV, rho, Label, ProbA, ProbB, nSV,sv_coef, SVs]。英文说明如下:
-Parameters: parameters
-nr_class: number of classes; = 2 for regression/one-class svm
-totalSV: total #SV
-rho: -b of the decision function(s) wx+b
-Label: label of each class; empty for regression/one-class SVM
-ProbA: pairwise probability information; empty if -b 0 or in one-classSVM
-ProbB: pairwise probability information; empty if -b 0 or in one-classSVM
-nSV: number of SVs for each class; empty for regression/one-class SVM
-sv_coef: coefficients for SVs in decision functions
-SVs: support vectors
如果没有指定’-b 1’选项则ProbA和ProbB为空矩阵。此外,当指定’-v’选项时,返回的model是一个数值,是cross-validation的准确率。
其中model.paramter是一个5X1的向量,参数意义为:
model.Parameters参数意义从上到下依次为:
-s svm类型:SVM设置类型(默认0)
-t 核函数类型:核函数设置类型(默认2)
-d degree:核函数中的degree设置(针对多项式核函数)(默认3)
-g r(gama):核函数中的gamma函数设置(针对多项式/rbf/sigmoid核函数) (默认类别数目的倒数)
-r coef0:核函数中的coef0设置(针对多项式/sigmoid核函数)((默认0)
svmpredict函数参数说明
svmpredict函数返回三个值,predict_label,是训练集预测得到的label向量。第二个输出是accuracy,是一个3维的向量,从上到下分别是:分类准率(分类问题中用到的参数指标);平均平方误差(MSE (mean squared error))(回归问题中用到的参数指标);平方相关系数(r2 (squared correlation coefficient))(回归问题中用到的参数指标)。第三个输出是个矩阵,包含着决策值或者是概率估计(当’-b 1’被指定时)。当训练数据有k类时,决策值矩阵是一个n行k*(k-1)/2列的矩阵(n为测试数据集个数,k为类别数),而每一行的输出是k*(k-1)/2个二分类器的结果。当’-b 1’被指定时,概率估计矩阵是一个n行k类的矩阵(n为测试数据集个数,k为类别数),每一行的输出是该测试数据属于每个类的概率。
先试着学习,孰能生巧。。。
特别感谢:Matlab配置libsvm