记录自己OCR的一点小笔记,慢慢摸索中
概念的一些积累:
Sobel梯度算法:
gx(x, y) = f(x + 1, y − 1) + 2f(x + 1, y) + f(x + 1, y + 1) −f(x − 1, y − 1) − 2f(x − 1, y) − f(x − 1, y + 1), gy(x, y) = f(x − 1, y + 1) + 2f(x, y + 1) + f(x + 1, y + 1) −f(x − 1, y − 1) − 2f(x, y − 1) − f(x + 1, y − 1).
A(i,j): 表示点(i,j)上的灰度值或者RGB值
在竖轴上的一阶导数为A(i, j)-A(i, j-1)
在竖轴上的二阶导数为(A(i,j+1)+A(i,j-1)-2A(i,j))/2
为了保证连续性,求完导数后再对上下点做下加权[1,2,1]
对行,列上的梯度进行累加,可以查找空白区域以及其他一些有意义的事情。
梯度算法计算二值化
连通域
Threshold Otsu
图像透视变换,9*9矩阵
A11, A12, A13 x x'
A21, A22, A23 * y = y'
A31, A32, A33 1 1
逆矩阵。
2. fast-rcnn文本行识别