随笔档案「2011年7月15日」：使用Tesseract OCR 提取复杂图像中的文字 ... - physoft

2011年7月15日

摘要： TesseractOCR 文字识别库识别率还是非常高的，但是前提是图像背景简单，如果有复杂的背景，识别率几乎为0.下面介绍从具有复杂背景图像中应用 Tesseract OCR提取文字的关键技巧。以我做的提取运动员号码的项目为例。测试图例：更多测试图例，请访问http://www.physoft.net/?p=5541. 前处理。前处理主要完成两个任务： a. 定位：根据目标图像的特征定位目标的区域。如图例，需要定位每个运动员数字标签的标签区域。Tesseract 对以文字为主体的图像识别率还是非常不错的。所以我们需要将定位到的区域抠出来做后面的处理，再给Tesseract 识别。定位是非常困阅读全文

posted @ 2011-07-15 14:45 physoft 阅读(6138) 评论(0) 推荐(1)

公告