二值图像连通域标记算法优化
文章概要
非常感谢☆Ronny丶博主在其博文《图像分析:二值图像连通域标记》中对二值图像连通域的介绍和算法阐述,让我这个毫无数据结构算法底子的小白能够理解和复现代码。本文的目的是基于我自己的理解,对该博文中Two-Pass算法的一些优化和补充,同时也希望帮助更多像我一样的人较快地掌握连通域标记。
连通域标记是图像分割计数的一个重要环节,在工业上应用非常地多。例如像硬币的计件,在二值化处理后,为了能够感知数量,就得对硬币区域进行标记(当然标记前可能还要经过一系列的形态学处理)。另外,还有一个我想到的,更有趣、也更具有挑战性的例子——二维码连通域标记,这用来检验算法的性能是再合适不过了。言归正题——本文介绍了两大流行算法,一个是利用DFS的Seed-Filling算法,另一个是Two-Pass算法。后者因为处理等价对的方法不同,又细分为DFS Two-Pass(使用DFS处理等价对)和Union-Find Two-Pass(使用并查集处理等价对)。如果硬要给这三种算法排序的话,大概是Union-Find Two-Pass > Seed-Filling > DFS Two-Pass,反正我写的程序是这样的速度排序。
Seed-Filling算法
这个算法其实实质就是DFS,笔者曾经有幸做过一个“水洼连通”的算法题,当时就是用DFS或者BFS来做的,显然,“水洼连通”也是属于连通域标记问题的。DFS在这个问题上的思路是:优先地寻找一个完整连通域,在找的同时把他们都标记一下,找完一个完整连通域, 再去找下一个连通域。按照这个想法,程序无非就是维护一个堆栈或者队列罢了,写起来相对简洁易懂。要说缺点的话,就是频繁的堆栈操作可能会拉低程序的性能。
简要地说明一下这部分代码含义,故事就定义成小明踩水坑吧,虽然小明对我表示自己很文静,只喜欢做数学题。首先,定义了一个二维矩阵labels,大小跟二值图一样。一开始labels都是标签0,这是一个无效标签,可以理解为是充满迷雾的未知区域或者是已确定的非水坑区域。小明每到达一个新的单位域(也就是一个新像素),首先要先看看这个域是不是未曾踩过的水坑(未曾踩过的水坑其标签为0且灰度值为255),如果是的话,那么小明就原地开心地踩水坑了,踩过以后还不忘给它画上一个大于0的标记(以标签1为例)。接下来,小明回顾四周,又发现了接壤的另一个水坑, 于是又在该水坑上留下了标记1······这样看似单调的循环,在小明眼里却是一次次奇妙的冒险。愉快的时光很短暂,小明不一会儿就发现身边已经没有“新鲜”的水坑了,伤心的同时回到最初的那个水坑,继续朝远方走去。渐渐地,眼前依稀出现了陌生又熟悉的水坑,重现微笑的小明决定要开启新的旅途,因此标记1.0进化至2.0。
故事的结束,要额外补充一点,程序里要不停地将新的单位域加入队列, 因此队列遍历其上限是动态的。
void seedFilling(Mat &src) { // 标签容器,初始化为标记0 vector<vector<int>> labels(src.rows, vector<int>(src.cols, 0)); // 当前的种子标签 int curLabel = 1; // 四连通位置偏移 pair<int, int> offset[4] = {make_pair(0, 1), make_pair(1, 0), make_pair(-1, 0), make_pair(0, -1)}; // 当前连通域中的单位域队列 vector<pair<int, int>> tempList; for (int i = 0; i < src.rows; i++) { for (int j = 0; j < src.cols; j++) { // 当前单位域已被标记或者属于背景区域, 则跳过 if (labels[i][j] != 0 || src.at<uchar>(i, j) == 0) { continue; } // 当前单位域未标记并且属于前景区域, 用种子为其标记 labels[i][j] = curLabel; // 加入单位域队列 tempList.push_back(make_pair(i, j)); // 遍历单位域队列 for (int k = 0; k < tempList.size(); k++) { // 四连通范围内检查未标记的前景单位域 for (int m = 0; m < 4; m++) { int row = offset[m].first + tempList[k].first; int col = offset[m].second + tempList[k].second; // 防止坐标溢出图像边界 row = (row < 0) ? 0: ((row >= src.rows) ? (src.rows - 1): row); col = (col < 0) ? 0: ((col >= src.cols) ? (src.cols - 1): col); // 邻近单位域未标记并且属于前景区域, 标记并加入队列 if (labels[row][col] == 0 && src.at<uchar>(row, col) == 255) { labels[row][col] = curLabel; tempList.push_back(make_pair(row, col)); } } } // 一个完整连通域查找完毕,标签更新 curLabel++; // 清空队列 tempList.clear(); } } return; }
Two-Pass算法
等价对生成
关于Two-Pass的算法原理可以参考上面提到的博文,原文还是很详细的,唯一的遗憾就是后面程序的注释有点少,看起来会吃力些,说白了就是自己菜。要找一张二维图像中的连通域,很容易想到可以一行一行先把子区域找出来,然后再拼合成一个完整的连通域,因为从每一行找连通域是一件很简单的事。这个过程中需要记录每一个子区域,为了满足定位要求,并且节省内存,我们需要记录子区域所在的行号、区域开始的位置、结束的位置,当然还有一个表征子区域总数的变量。需要注意的就是子区域开始位置和结束位置在行首和行末的情况要单独拿出来考虑。
// 查找每一行的子区域 // numberOfArea:子区域总数 stArea:子区域开始位置 enArea:子区域结束位置 rowArea:子区域所在行号 void searchArea(const Mat src, int &numberOfArea, vector<int> &stArea, vector<int> &enArea, vector<int> &rowArea) { for (int row = 0; row < src.rows; row++) { // 行指针 const uchar *rowData = src.ptr<uchar>(row); // 判断行首是否是子区域的开始点 if (rowData[0] == 255){ numberOfArea++; stArea.push_back(0); } for (int col = 1; col < src.cols; col++) { // 子区域开始位置的判断:前像素为背景,当前像素是前景 if (rowData[col - 1] == 0 && rowData[col] == 255) { numberOfArea++; stArea.push_back(col); // 子区域结束位置的判断:前像素是前景,当前像素是背景 }else if (rowData[col - 1] == 255 && rowData[col] == 0) { // 更新结束位置vector、行号vector enArea.push_back(col - 1); rowArea.push_back(row); } } // 结束位置在行末 if (rowData[src.cols - 1] == 255) { enArea.push_back(src.cols - 1); rowArea.push_back(row); } } }
另外一个比较棘手的问题,如何给这些子区域标号,使得同一个连通域有相同的标签值。我们给单独每一行的子区域标号区分是很容易的事, 关键是处理相邻行间的子区域关系(怎么判别两个子区域是连通的)。
主要思路:以四连通为例,在上图我们可以看出BE是属于同一个连通域,判断的依据是E的开始位置小于B的结束位置,并且E的结束地址大于B的开始地址;同理可以判断出EC属于同一个连通域,CF属于同一个连通域,因此可以推知BECF都属于同一个连通域。
迭代策略:寻找E的相连区域时,对前一行的ABCD进行迭代,找到相连的有B和C,而D的开始地址已经大于了E的结束地址,此时就可以提前break掉,避免不必要的迭代操作;接下来迭代F的时候,由于有E留下来的基础,因此对上一行的迭代可以直接从C开始。另外,当前行之前的一行如果不存在子区域的话,那么当前行的所有子区域都可以直接赋新的标签,而不需要迭代上一行。
标签策略:以上图为例,遍历第一行,A、B、C、D会分别得到标签1、2、3、4。到了第二行,检测到E与B相连,之前E的标签还是初始值0,因此给E赋上B的标签2;之后再次检测到C和E相连,由于E已经有了标签2,而C的标签为3,则保持E和C标签不变,将(2,3)作为等价对进行保存。同理,检测到F和C相连,且F标签还是初始值0,则为F标上3。如此对所有的子区域进行标号,最终可以得到一个等价对的列表。
下面的代码实现了上述的过程。子区域用一维vector保存,没办法直接定位到某一行号的子区域,因此需要用curRow来记录当前的行,用firstAreaPrev记录前一行的第一个子区域在vector中的位置,用lastAreaPrev记录前一行的最后一个子区域在vector中的位置。在换行的时候,就去更新刚刚说的3个变量,其中firstAreaPrev的更新依赖于当前行的第一个子区域位置,所以还得用firstAreaCur记录当前行的第一个子区域。
// 初步标签,获取等价对 // labelOfArea:子区域标签值, equalLabels:等价标签对 offset:0为四连通,1为8连通 void markArea(int numberOfArea, vector<int> stArea, vector<int> enArea, vector<int> rowArea, vector<int> &labelOfArea, vector<pair<int, int>> &equalLabels, int offset) { int label = 1; // 当前所在行 int curRow = 0; // 当前行的第一个子区域位置索引 int firstAreaCur = 0; // 前一行的第一个子区域位置索引 int firstAreaPrev = 0; // 前一行的最后一个子区域位置索引 int lastAreaPrev = 0; // 初始化标签都为0 labelOfArea.assign(numberOfArea, 0); // 遍历所有子区域并标记 for (int i = 0; i < numberOfArea; i++) { // 行切换时更新状态变量 if (curRow != rowArea[i]) { curRow = rowArea[i]; firstAreaPrev = firstAreaCur; lastAreaPrev = i - 1; firstAreaCur = i; } // 相邻行不存在子区域 if (curRow != rowArea[firstAreaPrev] + 1) { labelOfArea[i] = label++; continue; } // 对前一行进行迭代 for (int j = firstAreaPrev; j <= lastAreaPrev; j++) { // 判断是否相连 if (stArea[i] <= enArea[j] + offset && enArea[i] >= stArea[j] - offset) { // 之前没有标记过 if (labelOfArea[i] == 0) labelOfArea[i] = labelOfArea[j]; // 之前已经被标记,保存等价对 else if (labelOfArea[i] != labelOfArea[j]) equalLabels.push_back(make_pair(labelOfArea[i], labelOfArea[j])); }else if (enArea[i] < stArea[j] - offset) { // 为当前行下一个子区域缩小上一行的迭代范围 firstAreaPrev = max(firstAreaPrev, j - 1); break; } } // 与上一行不存在相连 if (labelOfArea[i] == 0) { labelOfArea[i] = label++; } } }
DFS Two-Pass算法
通过上面的努力,标记任务并没有做完,最核心的部分正是如何处理等价对。这里简单贴上原博主说的DSF方法,又是深搜啊。相比于直接DFS标记连通域,先找等价对再深搜减少了大量的堆栈操作,因为前者深度取决于连通域的大小,而后者是连通域数量,显然这两个数量级的差距挺大的。
原博主的想法是建立一个Bool型等价对矩阵,用作深搜环境。具体做法是先获取最大的标签值maxLabel,然后生成一个$maxLabel*maxLabel$大小的二维矩阵,初始值为false;对于例如(1,3)这样的等价对,在矩阵的(0,2)和(2,0)处赋值true——要注意索引和标签值是相差1的。就这样把所有等价对都反映到矩阵上。
深搜的目的在于建立一个标签的重映射。例如4、5、8是等价的标签,都重映射到标签2。最后重映射的效果就是标签最小为1,且依次递增,没有缺失和等价。深搜在这里就是优先地寻找一列等价的标签,例如一口气把4、5、8都找出来,然后给他们映射到标签2。程序也维护了一个队列,当标签在矩阵上值为true,而且没有被映射过,就加入到队列。
当然不一定要建立一个二维等价矩阵,一般情况,等价对数量要比maxLabel来的小,所以也可以直接对等价对列表进行深搜,但无论采用怎样的深搜,其等价对处理的性能都不可能提高很多。
// 等价对处理,标签重映射 void replaceEqualMark(vector<int> &labelOfArea, vector<pair<int, int>> equalLabels) { int maxLabel = *max_element(labelOfArea.begin(), labelOfArea.end()); // 等价标签矩阵,值为true表示这两个标签等价 vector<vector<bool>> eqTab(maxLabel, vector<bool>(maxLabel, false)); // 将等价对信息转移到矩阵上 vector<pair<int, int>>::iterator labPair; for (labPair = equalLabels.begin(); labPair != equalLabels.end(); labPair++) { eqTab[labPair->first -1][labPair->second -1] = true; eqTab[labPair->second -1][labPair->first -1] = true; } // 标签映射 vector<int> labelMap(maxLabel + 1, 0); // 等价标签队列 vector<int> tempList; // 当前使用的标签 int curLabel = 1; for (int i = 1; i <= maxLabel; i++) { // 如果该标签已被映射,直接跳过 if (labelMap[i] != 0) { continue; } labelMap[i] = curLabel; tempList.push_back(i); for (int j = 0; j < tempList.size(); j++) { // 在所有标签中寻找与当前标签等价的标签 for (int k = 1; k <= maxLabel; k++) { // 等价且未访问 if (eqTab[tempList[j] - 1][k - 1] && labelMap[k] == 0) { labelMap[k] = curLabel; tempList.push_back(k); } } } curLabel++; tempList.clear(); } // 根据映射修改标签 vector<int>::iterator label; for (label = labelOfArea.begin(); label != labelOfArea.end(); label++) { *label = labelMap[*label]; } return; }
Union-Find Two-Pass算法
如果读者看到了这里,真的要感谢一下您的耐心。Two-Pass算法的代码要比直接深搜来得多,用不好甚至性能还远不如深搜。原博主在文中提及了可以用稀疏矩阵来处理等价对,奈何我较为愚钝,读者可以自研之。
讲到等价对,实质是一种关系分类,因而联想到并查集。并查集方法在这个问题上显得非常合适,首先将等价对进行综合就是合并操作,标签重映射就是查询操作(并查集可以看做一种多对一映射)。并查集具体算法我就不唠叨了,毕竟不怎么打程序设计竞赛。不过,采用并查集的话,函数定义估计就满天飞了,这里我包装了一下,做成了类——实在是有点强迫症,其中等价对生成的函数方法跟上面的是一样的。
网上有一些代码也实现了这个算法,但是有的牺牲了秩优化,合并时让树指向较小的根,个人认为这样做太不值了。所以为了解决这个,我在并查集映射后,又用labelReMap来进行第二次的映射,主要的步骤跟前面的差不多。
然后,自己跑了一下这代码,不算画图标记的时间,效率要比上面的快四五倍左右,实时性上肯定是绰绰有余了。
#include<opencv2/opencv.hpp> #include<iostream> using namespace std; using namespace cv; class AreaMark { public: AreaMark(const Mat src,int offset); int getMarkedArea(vector<vector<int>> &area); void getMarkedImage(Mat &dst); private: Mat src; int offset; int numberOfArea=0; vector<int> labelMap; vector<int> labelRank; vector<int> stArea; vector<int> enArea; vector<int> rowArea; vector<int> labelOfArea; vector<pair<int, int>> equalLabels; void markArea(); void searchArea(); void setInit(int n); int findRoot(int label); void unite(int labelA, int labelB); void replaceEqualMark(); }; // 构造函数 // imageInput:输入待标记二值图像 offsetInput:0为四连通,1为八连通 AreaMark::AreaMark(Mat imageInput,int offsetInput) { src = imageInput; offset = offsetInput; } // 使用可区分的颜色标记连通域 void AreaMark::getMarkedImage(Mat &dst) { Mat img(src.rows, src.cols, CV_8UC3, CV_RGB(0, 0, 0)); cvtColor(img, dst, CV_RGB2HSV); int maxLabel = *max_element(labelOfArea.begin(), labelOfArea.end()); vector<uchar> hue; for (int i = 1; i<= maxLabel; i++) { // HSV color-mode hue.push_back(uchar(180.0 * (i - 1) / (maxLabel + 1))); } for (int i = 0; i < numberOfArea; i++) { for (int j = stArea[i]; j <= enArea[i]; j++) { dst.at<Vec3b>(rowArea[i], j)[0] = hue[labelOfArea[i]]; dst.at<Vec3b>(rowArea[i], j)[1] = 255; dst.at<Vec3b>(rowArea[i], j)[2] = 255; } } cvtColor(dst, dst, CV_HSV2BGR); } // 获取标记过的各行子区域 int AreaMark::getMarkedArea(vector<vector<int>> &area) { searchArea(); markArea(); replaceEqualMark(); area.push_back(rowArea); area.push_back(stArea); area.push_back(enArea); area.push_back(labelOfArea); return numberOfArea; } // 查找每一行的子区域 // numberOfArea:子区域总数 stArea:子区域开始位置 enArea:子区域结束位置 rowArea:子区域所在行号 void AreaMark::searchArea() { for (int row = 0; row < src.rows; row++) { // 行指针 const uchar *rowData = src.ptr<uchar>(row); // 判断行首是否是子区域的开始点 if (rowData[0] == 255){ numberOfArea++; stArea.push_back(0); } for (int col = 1; col < src.cols; col++) { // 子区域开始位置的判断:前像素为背景,当前像素是前景 if (rowData[col - 1] == 0 && rowData[col] == 255) { numberOfArea++; stArea.push_back(col); // 子区域结束位置的判断:前像素是前景,当前像素是背景 }else if (rowData[col - 1] == 255 && rowData[col] == 0) { // 更新结束位置vector、行号vector enArea.push_back(col - 1); rowArea.push_back(row); } } // 结束位置在行末 if (rowData[src.cols - 1] == 255) { enArea.push_back(src.cols - 1); rowArea.push_back(row); } } } void AreaMark::markArea() { int label = 1; // 当前所在行 int curRow = 0; // 当前行的第一个子区域位置索引 int firstAreaCur = 0; // 前一行的第一个子区域位置索引 int firstAreaPrev = 0; // 前一行的最后一个子区域位置索引 int lastAreaPrev = 0; // 初始化标签都为0 labelOfArea.assign(numberOfArea, 0); // 遍历所有子区域并标记 for (int i = 0; i < numberOfArea; i++) { // 行切换时更新状态变量 if (curRow != rowArea[i]) { curRow = rowArea[i]; firstAreaPrev = firstAreaCur; lastAreaPrev = i - 1; firstAreaCur = i; } // 相邻行不存在子区域 if (curRow != rowArea[firstAreaPrev] + 1) { labelOfArea[i] = label++; continue; } // 对前一行进行迭代 for (int j = firstAreaPrev; j <= lastAreaPrev; j++) { // 判断是否相连 if (stArea[i] <= enArea[j] + offset && enArea[i] >= stArea[j] - offset) { // 之前没有标记过 if (labelOfArea[i] == 0) labelOfArea[i] = labelOfArea[j]; // 之前已经被标记,保存等价对 else if (labelOfArea[i] != labelOfArea[j]) equalLabels.push_back(make_pair(labelOfArea[i], labelOfArea[j])); }else if (enArea[i] < stArea[j] - offset) { // 为当前行下一个子区域缩小上一行的迭代范围 firstAreaPrev = max(firstAreaPrev, j - 1); break; } } // 与上一行不存在相连 if (labelOfArea[i] == 0) { labelOfArea[i] = label++; } } } //集合初始化 void AreaMark::setInit(int n) { for (int i = 0; i <= n; i++) { labelMap.push_back(i); labelRank.push_back(0); } } //查找树根 int AreaMark::findRoot(int label) { if (labelMap[label] == label) { return label; } else { // path compression return labelMap[label] = findRoot(labelMap[label]); } } // 合并集合 void AreaMark::unite(int labelA, int labelB) { labelA = findRoot(labelA); labelB = findRoot(labelB); if (labelA == labelB) { return; } // rank optimization:tree with high rank merge tree with low rank if (labelRank[labelA] < labelRank[labelB]) { labelMap[labelA] = labelB; } else { labelMap[labelB] = labelA; if (labelRank[labelA] == labelRank[labelB]) { labelRank[labelA]++; } } } // 等价对处理,标签重映射 void AreaMark::replaceEqualMark() { int maxLabel = *max_element(labelOfArea.begin(), labelOfArea.end()); setInit(maxLabel); // 合并等价对,标签初映射 vector<pair<int, int>>::iterator labPair; for (labPair = equalLabels.begin(); labPair != equalLabels.end(); labPair++) { unite(labPair->first, labPair->second); } // 标签重映射,填补缺失标签 int newLabel=0; vector<int> labelReMap(maxLabel + 1, 0); vector<int>::iterator old; for (old = labelMap.begin(); old != labelMap.end(); old++) { if (labelReMap[findRoot(*old)] == 0) { labelReMap[findRoot(*old)] = newLabel++; } } // 根据重映射结果修改标签 vector<int>::iterator label; for (label = labelOfArea.begin(); label != labelOfArea.end(); label++) { *label = labelReMap[findRoot(*label)]; } } int main() { Mat img = imread("img/qrcode.jpg", IMREAD_GRAYSCALE); threshold(img, img, 0, 255, THRESH_OTSU); AreaMark marker(img, 0); vector<vector<int>> area; int amount; // 1s for 1000 times amount = marker.getMarkedArea(area); Mat dst; marker.getMarkedImage(dst); imshow("img", img); imshow("dst", dst); waitKey(0); }
最后的最后,这些代码都没有经历过“岁月的历练”,如果存在不合理之处,请读者指正!