目标跟踪学习笔记_1(opencv中meanshift和camshift例子的应用)
在这一节中,主要讲目标跟踪的一个重要的算法Camshift,因为它是连续自使用的meanShift,所以这2个函数opencv中都有,且都很重要。为了让大家先达到一个感性认识。这节主要是看懂和运行opencv中给的sample并稍加修改。
Camshift函数的原型为:RotatedRect CamShift(InputArray probImage, Rect& window, TermCriteria criteria)。
其中probImage为输入图像直方图的反向投影图,window为要跟踪目标的初始位置矩形框,criteria为算法结束条件。函数返回一个有方向角度的矩阵。该函数的实现首先是利用meanshift算法计算出要跟踪的中心,然后调整初始窗口的大小位置和方向角度。在camshift内部调用了meanshift算法计算目标的重心。
下面是一个opencv自带的CamShift算法使用工程实例。该实例的作用是跟踪摄像头中目标物体,目标物体初始位置用鼠标指出,其跟踪窗口大小和方向随着目标物体的变化而变化。其代码及注释大概如下:
1 #include "StdAfx.h"
2
3 #include "opencv2/video/tracking.hpp"
4 #include "opencv2/imgproc/imgproc.hpp"
5 #include "opencv2/highgui/highgui.hpp"
6
7
8 #include <iostream>
9 #include <ctype.h>
10
11 using namespace cv;
12 using namespace std;
13
14 Mat image;
15
16 bool backprojMode = false; //表示是否要进入反向投影模式,ture表示准备进入反向投影模式
17 bool selectObject = false;//代表是否在选要跟踪的初始目标,true表示正在用鼠标选择
18 int trackObject = 0; //代表跟踪目标数目
19 bool showHist = true;//是否显示直方图
20 Point origin;//用于保存鼠标选择第一次单击时点的位置
21 Rect selection;//用于保存鼠标选择的矩形框
22 int vmin = 10, vmax = 256, smin = 30;
23
24 void onMouse( int event, int x, int y, int, void* )
25 {
26 if( selectObject )//只有当鼠标左键按下去时才有效,然后通过if里面代码就可以确定所选择的矩形区域selection了
27 {
28 selection.x = MIN(x, origin.x);//矩形左上角顶点坐标
29 selection.y = MIN(y, origin.y);
30 selection.width = std::abs(x - origin.x);//矩形宽
31 selection.height = std::abs(y - origin.y);//矩形高
32
33 selection &= Rect(0, 0, image.cols, image.rows);//用于确保所选的矩形区域在图片范围内
34 }
35
36 switch( event )
37 {
38 case CV_EVENT_LBUTTONDOWN:
39 origin = Point(x,y);
40 selection = Rect(x,y,0,0);//鼠标刚按下去时初始化了一个矩形区域
41 selectObject = true;
42 break;
43 case CV_EVENT_LBUTTONUP:
44 selectObject = false;
45 if( selection.width > 0 && selection.height > 0 )
46 trackObject = -1;
47 break;
48 }
49 }
50
51 void help()
52 {
53 cout << "\nThis is a demo that shows mean-shift based tracking\n"
54 "You select a color objects such as your face and it tracks it.\n"
55 "This reads from video camera (0 by default, or the camera number the user enters\n"
56 "Usage: \n"
57 " ./camshiftdemo [camera number]\n";
58
59 cout << "\n\nHot keys: \n"
60 "\tESC - quit the program\n"
61 "\tc - stop the tracking\n"
62 "\tb - switch to/from backprojection view\n"
63 "\th - show/hide object histogram\n"
64 "\tp - pause video\n"
65 "To initialize tracking, select the object with mouse\n";
66 }
67
68 const char* keys =
69 {
70 "{1| | 0 | camera number}"
71 };
72
73 int main( int argc, const char** argv )
74 {
75 help();
76
77 VideoCapture cap; //定义一个摄像头捕捉的类对象
78 Rect trackWindow;
79 RotatedRect trackBox;//定义一个旋转的矩阵类对象
80 int hsize = 16;
81 float hranges[] = {0,180};//hranges在后面的计算直方图函数中要用到
82 const float* phranges = hranges;
83 CommandLineParser parser(argc, argv, keys);//命令解析器函数
84 int camNum = parser.get<int>("1");
85
86 cap.open(camNum);//直接调用成员函数打开摄像头
87
88 if( !cap.isOpened() )
89 {
90 help();
91 cout << "***Could not initialize capturing...***\n";
92 cout << "Current parameter's value: \n";
93 parser.printParams();
94 return -1;
95 }
96
97 namedWindow( "Histogram", 0 );
98 namedWindow( "CamShift Demo", 0 );
99 setMouseCallback( "CamShift Demo", onMouse, 0 );//消息响应机制
100 createTrackbar( "Vmin", "CamShift Demo", &vmin, 256, 0 );//createTrackbar函数的功能是在对应的窗口创建滑动条,滑动条Vmin,vmin表示滑动条的值,最大为256
101 createTrackbar( "Vmax", "CamShift Demo", &vmax, 256, 0 );//最后一个参数为0代表没有调用滑动拖动的响应函数
102 createTrackbar( "Smin", "CamShift Demo", &smin, 256, 0 );//vmin,vmax,smin初始值分别为10,256,30
103
104 Mat frame, hsv, hue, mask, hist, histimg = Mat::zeros(200, 320, CV_8UC3), backproj;
105 bool paused = false;
106
107 for(;;)
108 {
109 if( !paused )//没有暂停
110 {
111 cap >> frame;//从摄像头抓取一帧图像并输出到frame中
112 if( frame.empty() )
113 break;
114 }
115
116 frame.copyTo(image);
117
118 if( !paused )//没有按暂停键
119 {
120 cvtColor(image, hsv, CV_BGR2HSV);//将rgb摄像头帧转化成hsv空间的
121
122 if( trackObject )//trackObject初始化为0,或者按完键盘的'c'键后也为0,当鼠标单击松开后为-1
123 {
124 int _vmin = vmin, _vmax = vmax;
125
126 //inRange函数的功能是检查输入数组每个元素大小是否在2个给定数值之间,可以有多通道,mask保存0通道的最小值,也就是h分量
127 //这里利用了hsv的3个通道,比较h,0~180,s,smin~256,v,min(vmin,vmax),max(vmin,vmax)。如果3个通道都在对应的范围内,则
128 //mask对应的那个点的值全为1(0xff),否则为0(0x00).
129 inRange(hsv, Scalar(0, smin, MIN(_vmin,_vmax)),
130 Scalar(180, 256, MAX(_vmin, _vmax)), mask);
131 int ch[] = {0, 0};
132 hue.create(hsv.size(), hsv.depth());//hue初始化为与hsv大小深度一样的矩阵,色调的度量是用角度表示的,红绿蓝之间相差120度,反色相差180度
133 mixChannels(&hsv, 1, &hue, 1, ch, 1);//将hsv第一个通道(也就是色调)的数复制到hue中,0索引数组
134
135 if( trackObject < 0 )//鼠标选择区域松开后,该函数内部又将其赋值1
136 {
137 //此处的构造函数roi用的是Mat hue的矩阵头,且roi的数据指针指向hue,即共用相同的数据,select为其感兴趣的区域
138 Mat roi(hue, selection), maskroi(mask, selection);//mask保存的hsv的最小值
139
140 //calcHist()函数第一个参数为输入矩阵序列,第2个参数表示输入的矩阵数目,第3个参数表示将被计算直方图维数通道的列表,第4个参数表示可选的掩码函数
141 //第5个参数表示输出直方图,第6个参数表示直方图的维数,第7个参数为每一维直方图数组的大小,第8个参数为每一维直方图bin的边界
142 calcHist(&roi, 1, 0, maskroi, hist, 1, &hsize, &phranges);//将roi的0通道计算直方图并通过mask放入hist中,hsize为每一维直方图的大小
143 normalize(hist, hist, 0, 255, CV_MINMAX);//将hist矩阵进行数组范围归一化,都归一化到0~255
144
145 trackWindow = selection;
146 trackObject = 1;//只要鼠标选完区域松开后,且没有按键盘清0键'c',则trackObject一直保持为1,因此该if函数只能执行一次,除非重新选择跟踪区域
147
148 histimg = Scalar::all(0);//与按下'c'键是一样的,这里的all(0)表示的是标量全部清0
149 int binW = histimg.cols / hsize; //histing是一个200*300的矩阵,hsize应该是每一个bin的宽度,也就是histing矩阵能分出几个bin出来
150 Mat buf(1, hsize, CV_8UC3);//定义一个缓冲单bin矩阵
151 for( int i = 0; i < hsize; i++ )//saturate_case函数为从一个初始类型准确变换到另一个初始类型
152 buf.at<Vec3b>(i) = Vec3b(saturate_cast<uchar>(i*180./hsize), 255, 255);//Vec3b为3个char值的向量
153 cvtColor(buf, buf, CV_HSV2BGR);//将hsv又转换成bgr
154
155 for( int i = 0; i < hsize; i++ )
156 {
157 int val = saturate_cast<int>(hist.at<float>(i)*histimg.rows/255);//at函数为返回一个指定数组元素的参考值
158 rectangle( histimg, Point(i*binW,histimg.rows), //在一幅输入图像上画一个简单抽的矩形,指定左上角和右下角,并定义颜色,大小,线型等
159 Point((i+1)*binW,histimg.rows - val),
160 Scalar(buf.at<Vec3b>(i)), -1, 8 );
161 }
162 }
163
164 calcBackProject(&hue, 1, 0, hist, backproj, &phranges);//计算直方图的反向投影,计算hue图像0通道直方图hist的反向投影,并让入backproj中
165 backproj &= mask;
166
167 //opencv2.0以后的版本函数命名前没有cv两字了,并且如果函数名是由2个意思的单词片段组成的话,且前面那个片段不够成单词,则第一个字母要
168 //大写,比如Camshift,如果第一个字母是个单词,则小写,比如meanShift,但是第二个字母一定要大写
169 RotatedRect trackBox = CamShift(backproj, trackWindow, //trackWindow为鼠标选择的区域,TermCriteria为确定迭代终止的准则
170 TermCriteria( CV_TERMCRIT_EPS | CV_TERMCRIT_ITER, 10, 1 ));//CV_TERMCRIT_EPS是通过forest_accuracy,CV_TERMCRIT_ITER
171 if( trackWindow.area() <= 1 ) //是通过max_num_of_trees_in_the_forest
172 {
173 int cols = backproj.cols, rows = backproj.rows, r = (MIN(cols, rows) + 5)/6;
174 trackWindow = Rect(trackWindow.x - r, trackWindow.y - r,
175 trackWindow.x + r, trackWindow.y + r) &
176 Rect(0, 0, cols, rows);//Rect函数为矩阵的偏移和大小,即第一二个参数为矩阵的左上角点坐标,第三四个参数为矩阵的宽和高
177 }
178
179 if( backprojMode )
180 cvtColor( backproj, image, CV_GRAY2BGR );//因此投影模式下显示的也是rgb图?
181 ellipse( image, trackBox, Scalar(0,0,255), 3, CV_AA );//跟踪的时候以椭圆为代表目标
182 }
183 }
184
185 //后面的代码是不管pause为真还是为假都要执行的
186 else if( trackObject < 0 )//同时也是在按了暂停字母以后
187 paused = false;
188
189 if( selectObject && selection.width > 0 && selection.height > 0 )
190 {
191 Mat roi(image, selection);
192 bitwise_not(roi, roi);//bitwise_not为将每一个bit位取反
193 }
194
195 imshow( "CamShift Demo", image );
196 imshow( "Histogram", histimg );
197
198 char c = (char)waitKey(10);
199 if( c == 27 ) //退出键
200 break;
201 switch(c)
202 {
203 case 'b': //反向投影模型交替
204 backprojMode = !backprojMode;
205 break;
206 case 'c': //清零跟踪目标对象
207 trackObject = 0;
208 histimg = Scalar::all(0);
209 break;
210 case 'h': //显示直方图交替
211 showHist = !showHist;
212 if( !showHist )
213 destroyWindow( "Histogram" );
214 else
215 namedWindow( "Histogram", 1 );
216 break;
217 case 'p': //暂停跟踪交替
218 paused = !paused;
219 break;
220 default:
221 ;
222 }
223 }
224 return 0;
225 }
运行截图如下(由于摄像头中一般会拍到人,影响不好,所以含目标物体的截图就不贴上来了):
另外,由于Camshift主要是利用到了meanShift算法,在目标跟踪领域应用比较广泛,而meanShift也可以用于目标跟踪,只是自适用性没CamShift好,但也可以用。首先看看meanShift算法的声明:
int meanShift(InputArray probImage, Rect& window, TermCriteria criteria)
与CamShift函数不同的一点是,它返回的不是一个矩形框,而是一个int型变量。该int型变量应该是代表找到目标物体的个数。特别需要注意的是参数window,它不仅是目标物体初始化的位置,还是实时跟踪目标后的位置,所以其实也是一个返回值。由于meanShift好像主要不是用于目标跟踪上,很多应用是在图像分割上。但是这里还是将CamShift算法例子稍微改一下,就成了meanShift算法了。主要是用window代替CamShift中的trackWindow.
其代码注释如下:
1 #include "StdAfx.h" 2 3 #include "opencv2/video/tracking.hpp" 4 #include "opencv2/imgproc/imgproc.hpp" 5 #include "opencv2/highgui/highgui.hpp" 6 7 8 #include <iostream> 9 #include <ctype.h> 10 11 using namespace cv; 12 using namespace std; 13 14 Mat image; 15 16 bool backprojMode = false; //表示是否要进入反向投影模式,ture表示准备进入反向投影模式 17 bool selectObject = false;//代表是否在选要跟踪的初始目标,true表示正在用鼠标选择 18 int trackObject = 0; //代表跟踪目标数目 19 bool showHist = true;//是否显示直方图 20 Point origin;//用于保存鼠标选择第一次单击时点的位置 21 Rect selection;//用于保存鼠标选择的矩形框 22 int vmin = 10, vmax = 256, smin = 30; 23 24 void onMouse( int event, int x, int y, int, void* ) 25 { 26 if( selectObject )//只有当鼠标左键按下去时才有效,然后通过if里面代码就可以确定所选择的矩形区域selection了 27 { 28 selection.x = MIN(x, origin.x);//矩形左上角顶点坐标 29 selection.y = MIN(y, origin.y); 30 selection.width = std::abs(x - origin.x);//矩形宽 31 selection.height = std::abs(y - origin.y);//矩形高 32 33 selection &= Rect(0, 0, image.cols, image.rows);//用于确保所选的矩形区域在图片范围内 34 } 35 36 switch( event ) 37 { 38 case CV_EVENT_LBUTTONDOWN: 39 origin = Point(x,y); 40 selection = Rect(x,y,0,0);//鼠标刚按下去时初始化了一个矩形区域 41 selectObject = true; 42 break; 43 case CV_EVENT_LBUTTONUP: 44 selectObject = false; 45 if( selection.width > 0 && selection.height > 0 ) 46 trackObject = -1; 47 break; 48 } 49 } 50 51 void help() 52 { 53 cout << "\nThis is a demo that shows mean-shift based tracking\n" 54 "You select a color objects such as your face and it tracks it.\n" 55 "This reads from video camera (0 by default, or the camera number the user enters\n" 56 "Usage: \n" 57 " ./camshiftdemo [camera number]\n"; 58 59 cout << "\n\nHot keys: \n" 60 "\tESC - quit the program\n" 61 "\tc - stop the tracking\n" 62 "\tb - switch to/from backprojection view\n" 63 "\th - show/hide object histogram\n" 64 "\tp - pause video\n" 65 "To initialize tracking, select the object with mouse\n"; 66 } 67 68 const char* keys = 69 { 70 "{1| | 0 | camera number}" 71 }; 72 73 int main( int argc, const char** argv ) 74 { 75 help(); 76 77 VideoCapture cap; //定义一个摄像头捕捉的类对象 78 Rect trackWindow; 79 RotatedRect trackBox;//定义一个旋转的矩阵类对象 80 int hsize = 16; 81 float hranges[] = {0,180};//hranges在后面的计算直方图函数中要用到 82 const float* phranges = hranges; 83 CommandLineParser parser(argc, argv, keys);//命令解析器函数 84 int camNum = parser.get<int>("1"); 85 86 cap.open(camNum);//直接调用成员函数打开摄像头 87 88 if( !cap.isOpened() ) 89 { 90 help(); 91 cout << "***Could not initialize capturing...***\n"; 92 cout << "Current parameter's value: \n"; 93 parser.printParams(); 94 return -1; 95 } 96 97 namedWindow( "Histogram", 0 ); 98 namedWindow( "CamShift Demo", 0 ); 99 setMouseCallback( "CamShift Demo", onMouse, 0 );//消息响应机制 100 createTrackbar( "Vmin", "CamShift Demo", &vmin, 256, 0 );//createTrackbar函数的功能是在对应的窗口创建滑动条,滑动条Vmin,vmin表示滑动条的值,最大为256 101 createTrackbar( "Vmax", "CamShift Demo", &vmax, 256, 0 );//最后一个参数为0代表没有调用滑动拖动的响应函数 102 createTrackbar( "Smin", "CamShift Demo", &smin, 256, 0 );//vmin,vmax,smin初始值分别为10,256,30 103 104 Mat frame, hsv, hue, mask, hist, histimg = Mat::zeros(200, 320, CV_8UC3), backproj; 105 bool paused = false; 106 107 for(;;) 108 { 109 if( !paused )//没有暂停 110 { 111 cap >> frame;//从摄像头抓取一帧图像并输出到frame中 112 if( frame.empty() ) 113 break; 114 } 115 116 frame.copyTo(image); 117 118 if( !paused )//没有按暂停键 119 { 120 cvtColor(image, hsv, CV_BGR2HSV);//将rgb摄像头帧转化成hsv空间的 121 122 if( trackObject )//trackObject初始化为0,或者按完键盘的'c'键后也为0,当鼠标单击松开后为-1 123 { 124 int _vmin = vmin, _vmax = vmax; 125 126 //inRange函数的功能是检查输入数组每个元素大小是否在2个给定数值之间,可以有多通道,mask保存0通道的最小值,也就是h分量 127 //这里利用了hsv的3个通道,比较h,0~180,s,smin~256,v,min(vmin,vmax),max(vmin,vmax)。如果3个通道都在对应的范围内,则 128 //mask对应的那个点的值全为1(0xff),否则为0(0x00). 129 inRange(hsv, Scalar(0, smin, MIN(_vmin,_vmax)), 130 Scalar(180, 256, MAX(_vmin, _vmax)), mask); 131 int ch[] = {0, 0}; 132 hue.create(hsv.size(), hsv.depth());//hue初始化为与hsv大小深度一样的矩阵,色调的度量是用角度表示的,红绿蓝之间相差120度,反色相差180度 133 mixChannels(&hsv, 1, &hue, 1, ch, 1);//将hsv第一个通道(也就是色调)的数复制到hue中,0索引数组 134 135 if( trackObject < 0 )//鼠标选择区域松开后,该函数内部又将其赋值1 136 { 137 //此处的构造函数roi用的是Mat hue的矩阵头,且roi的数据指针指向hue,即共用相同的数据,select为其感兴趣的区域 138 Mat roi(hue, selection), maskroi(mask, selection);//mask保存的hsv的最小值 139 140 //calcHist()函数第一个参数为输入矩阵序列,第2个参数表示输入的矩阵数目,第3个参数表示将被计算直方图维数通道的列表,第4个参数表示可选的掩码函数 141 //第5个参数表示输出直方图,第6个参数表示直方图的维数,第7个参数为每一维直方图数组的大小,第8个参数为每一维直方图bin的边界 142 calcHist(&roi, 1, 0, maskroi, hist, 1, &hsize, &phranges);//将roi的0通道计算直方图并通过mask放入hist中,hsize为每一维直方图的大小 143 normalize(hist, hist, 0, 255, CV_MINMAX);//将hist矩阵进行数组范围归一化,都归一化到0~255 144 145 trackWindow = selection; 146 trackObject = 1;//只要鼠标选完区域松开后,且没有按键盘清0键'c',则trackObject一直保持为1,因此该if函数只能执行一次,除非重新选择跟踪区域 147 148 histimg = Scalar::all(0);//与按下'c'键是一样的,这里的all(0)表示的是标量全部清0 149 int binW = histimg.cols / hsize; //histing是一个200*300的矩阵,hsize应该是每一个bin的宽度,也就是histing矩阵能分出几个bin出来 150 Mat buf(1, hsize, CV_8UC3);//定义一个缓冲单bin矩阵 151 for( int i = 0; i < hsize; i++ )//saturate_case函数为从一个初始类型准确变换到另一个初始类型 152 buf.at<Vec3b>(i) = Vec3b(saturate_cast<uchar>(i*180./hsize), 255, 255);//Vec3b为3个char值的向量 153 cvtColor(buf, buf, CV_HSV2BGR);//将hsv又转换成bgr 154 155 for( int i = 0; i < hsize; i++ ) 156 { 157 int val = saturate_cast<int>(hist.at<float>(i)*histimg.rows/255);//at函数为返回一个指定数组元素的参考值 158 rectangle( histimg, Point(i*binW,histimg.rows), //在一幅输入图像上画一个简单抽的矩形,指定左上角和右下角,并定义颜色,大小,线型等 159 Point((i+1)*binW,histimg.rows - val), 160 Scalar(buf.at<Vec3b>(i)), -1, 8 ); 161 } 162 } 163 164 calcBackProject(&hue, 1, 0, hist, backproj, &phranges);//计算直方图的反向投影,计算hue图像0通道直方图hist的反向投影,并让入backproj中 165 backproj &= mask; 166 167 //opencv2.0以后的版本函数命名前没有cv两字了,并且如果函数名是由2个意思的单词片段组成的话,且前面那个片段不够成单词,则第一个字母要 168 //大写,比如Camshift,如果第一个字母是个单词,则小写,比如meanShift,但是第二个字母一定要大写 169 meanShift(backproj, trackWindow, //trackWindow为鼠标选择的区域,TermCriteria为确定迭代终止的准则 170 TermCriteria( CV_TERMCRIT_EPS | CV_TERMCRIT_ITER, 10, 1 ));//CV_TERMCRIT_EPS是通过forest_accuracy,CV_TERMCRIT_ITER 171 if( trackWindow.area() <= 1 ) //是通过max_num_of_trees_in_the_forest 172 { 173 int cols = backproj.cols, rows = backproj.rows, r = (MIN(cols, rows) + 5)/6; 174 trackWindow = Rect(trackWindow.x - r, trackWindow.y - r, 175 trackWindow.x + r, trackWindow.y + r) & 176 Rect(0, 0, cols, rows);//Rect函数为矩阵的偏移和大小,即第一二个参数为矩阵的左上角点坐标,第三四个参数为矩阵的宽和高 177 } 178 179 if( backprojMode ) 180 cvtColor( backproj, image, CV_GRAY2BGR );//因此投影模式下显示的也是rgb图? 181 //ellipse( image, trackBox, Scalar(0,0,255), 3, CV_AA );//跟踪的时候以椭圆为代表目标 182 rectangle(image,Point(trackWindow.x,trackWindow.y),Point(trackWindow.x+trackWindow.width,trackWindow.y+trackWindow.height),Scalar(0,0,255),-1,CV_AA); 183 } 184 } 185 186 //后面的代码是不管pause为真还是为假都要执行的 187 else if( trackObject < 0 )//同时也是在按了暂停字母以后 188 paused = false; 189 190 if( selectObject && selection.width > 0 && selection.height > 0 ) 191 { 192 Mat roi(image, selection); 193 bitwise_not(roi, roi);//bitwise_not为将每一个bit位取反 194 } 195 196 imshow( "CamShift Demo", image ); 197 imshow( "Histogram", histimg ); 198 199 char c = (char)waitKey(10); 200 if( c == 27 ) //退出键 201 break; 202 switch(c) 203 { 204 case 'b': //反向投影模型交替 205 backprojMode = !backprojMode; 206 break; 207 case 'c': //清零跟踪目标对象 208 trackObject = 0; 209 histimg = Scalar::all(0); 210 break; 211 case 'h': //显示直方图交替 212 showHist = !showHist; 213 if( !showHist ) 214 destroyWindow( "Histogram" ); 215 else 216 namedWindow( "Histogram", 1 ); 217 break; 218 case 'p': //暂停跟踪交替 219 paused = !paused; 220 break; 221 default: 222 ; 223 } 224 } 225 return 0; 226 }
本文感性上认识了怎样使用meanShift()和CamShift()函数,跟进一步的实现原理需要看其相关的论文和代码才能理解。但是从本例中调用的其它函数也可以学到很多opencv函数,效果还是很不错的。