利用HOG+SVM训练自己的XML文件
参考网址:https://blog.csdn.net/cxazw/article/details/26071373
http://blog.csdn.net/Armily/article/details/8333862 原文链接
在人脸检测中,我们一般利用训练好的XML文件去预测图像中是否存在人脸,那么XML文件是如何得到的,按照人脸的XML文件,它应该是提取样本的Haar特征,利用某个机器学习方法,最终得到的。本文主要讨论如何得到自己的XML文件。
在机器学习中,首先应该是采集样本,然后提取他们的特征,本人主要利用HOG特征进行实验。
1、采集样本图像(正样本和负样本),将其归一化到一个的尺度,如48X48.
2、将样本图像的名称写到一个TXT文件,方便程序调用.
3、依次提取每张图像的HOG特征向量.
4、利用SVM进行训练.
5、得到XML文件
具体代码如下:
HOG特征向量计算方法:
利用矩形HOG结构,2×2个cell组成一个block块,每个cell由8×8像素的图像区域组成,步长N为8,而每个cell的梯度方向从00-3600分成9个方向块。对于00-1800的方向均匀投影到9个方向块,比如00-200投影到a1块,200-400投影到a2块。也就是说每个cell要对9维的特征进行梯度幅度投影,形成9维的特征向量,block内的四个cell独立产生9维的特征向量,计算某个cell的特征向量时,投影的时候同一个block内的另外三个cell中的像素也要对这个cell的特征向量进行投影,投影的权重使用三线性插值方法,这样在48×48的图片大小下,利用公式N = ((W–wb )/stride + 1)*((H-hb)/stride+1)*bins*n ,
其中W为图片的宽,H为图片的高,wb和hb为block的宽与高,stride为cell的大小,bins为投影的区块,n为一个block中包含的cell的个数。
就产生900维的特征向量。
- //extract the hog feature from images //
- #define HOG_VECTOR 900 // 图像HOG特征向量 ((48-16)/8 + 1)*(48-16)/8 + 1)*9*4=900
- #define TRAIN_IMG_NUM 800 //总共的样本(图像)数
- HOGDescriptor hog(cvSize(48,48),cvSize(16,16),cvSize(8,8),cvSize(8,8),9,1,- 1,HOGDescriptor::L2Hys,0.2,false,HOGDescriptor::DEFAULT_NLEVELS); //初始化HOG描述符
- vector<float>descrip;
- vector<float>totaldescrip(HOG_VECTOR*TRAIN_IMG_NUM); //将所有HOG特征向量保存在vector中
- vector<float>::iterator pos;
- pos=totaldescrip.begin();
- int ImageNum=0;
- Mat img;
- FILE* f = "pictures.txt"; //存放样本图像
- char _filename[1024];
- for (;;)
- {
- char* filename = _filename;
- if(f)
- {
- if(!fgets(filename, (int)sizeof(_filename)-2, f))
- break;
- //while(*filename && isspace(*filename))
- // ++filename;
- if(filename[0] == '#')
- continue;
- int l = strlen(filename);
- while(l > 0 && isspace(filename[l-1]))
- --l;
- filename[l] = '\0';
- img = imread(filename);
- }
- printf("%s:\n", filename);
- if(!img.data)
- continue;
- fflush(stdout);
- hog.compute(img,descrip); //计算每幅图像的HOG特征向量
- vector<float>::iterator iter;
- for (iter=descrip.begin();iter!=descrip.end();iter++,pos++)
- {
- *pos=*iter;
- }
- }
- float* buf2=&totaldescrip[0];
- Mat data_mat(TRAIN_IMG_NUM,HOG_VECTOR,CV_32FC1,buf2);
- //将图像标记为两类:1->正样本;2->负样本
- Mat res_mat=Mat::ones(TRAIN_IMG_NUM,1,CV_32SC1);
- for (int k=400;k<800;k++)
- {
- res_mat.at<unsigned int>(k, 0)=2;
- }
- //利用SVM进行训练,生成XML文件
- TermCriteria criteria;
- SVM svm = SVM ();
- SVMParams param;
- criteria = cvTermCriteria (CV_TERMCRIT_EPS, 1000, FLT_EPSILON);
- param = SVMParams (SVM::C_SVC, SVM::LINEAR, 10.0, 0.09, 1.0, 10.0, 0.5, 1.0, NULL, criteria);
- svm.train(data_mat,res_mat,Mat(), Mat(), param);
- svm.save ("svm_image.xml");
预测的代码:
- hog.compute(img,descrip3);
- float* buf3=&descrip3[0];
- Mat hog_data_mat(1,900,CV_32FC1,buf3);
- SVM svm_hog=CvSVM();
- svm_hog.load("svm_image.xml");
- float index=0.;
- index=svm_hog.predict(hog_data_mat);
- cout<<"index="<<index<<endl;
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· 阿里巴巴 QwQ-32B真的超越了 DeepSeek R-1吗?
· 【译】Visual Studio 中新的强大生产力特性
· 10年+ .NET Coder 心语 ── 封装的思维:从隐藏、稳定开始理解其本质意义
· 【设计模式】告别冗长if-else语句:使用策略模式优化代码结构
2021-03-26 C++CLR类库封装Native类库并用C#调用 - 草稿
2021-03-26 C++ CLI简介(什么是C++ CLI)