摘要: OCR图像一般有两种:有格式的近距离图像或者扫描件,如身份证,名片,人民币、美元;无格式的图像,如使用Tesseract OCR 提取复杂图像中的文字。最近 有格式的近距离图像识别项目比较多,因此积累了一套版式分析(Layout Analysis)的算法,快速、可抗强干扰(光线、阴影)和噪音(污染、遮挡、背景)。特别适合证件,钱币等格式比较固定,内容较少但字比较分散的图像OCR。 阅读全文
posted @ 2012-02-06 14:40 physoft 阅读(2058) 评论(3) 推荐(1) 编辑
摘要: Tesseract OCR 提取美元序列号 阅读全文
posted @ 2011-09-19 13:16 physoft 阅读(2102) 评论(0) 推荐(1) 编辑
摘要: 前面提到了如何使用Tesseract OCR 从复杂图像中提取文字,关键在于将图像分割,局部二值化后传给Tesseract识别,如从下图中提取每个物品的数量:方法是先使用几何特征和颜色特征将物品分割为小的局域,再将每个区域二值化。这样,每个局域就对应一个子图,传给Tesseract。但是Tesseract识别一个图像速度还行,如果识别10个,20个,速度就很慢了。识别一个如上图( 400*600)的图像需要 10秒以上!!!这显然是太慢了。其实Tesseract 识别速度和子图的数目成正比,和图像的大小倒是没什么关系,也就是识别100*100的图和识别1024*1024的图,时间差不多太多。 阅读全文
posted @ 2011-07-19 14:02 physoft 阅读(6786) 评论(3) 推荐(0) 编辑
摘要: TesseractOCR 文字识别库识别率还是非常高的,但是前提是图像背景简单,如果有复杂的背景,识别率几乎为0.下面介绍从具有复杂背景图像中应用 Tesseract OCR提取文字的关键技巧。以我做的提取运动员号码的项目为例。测试图例:更多测试图例,请访问http://www.physoft.net/?p=5541. 前处理。 前处理主要完成两个任务: a. 定位:根据目标图像的特征定位目标的区域。如图例,需要定位每个运动员数字标签的标签区域。Tesseract 对以文字为主体的图像识别率还是非常不错的。所以我们需要将定位到的区域抠出来做后面的处理,再给Tesseract 识别。定位是非常困 阅读全文
posted @ 2011-07-15 14:45 physoft 阅读(6066) 评论(0) 推荐(1) 编辑
摘要: 最近竞标了农业部二维码的识别,感觉开发出来的二维码识别率还非常不错,速度也很快,这里分享下。 二维码已经开始普及起来。15-20年前设计的QR码和DM码仍然是主流码。国内也有不少码制出现,但其实详细看,也是换汤不换药,适应性还是很差。差的原因是很难适应复杂环境,比如自然环境下的二维码。农业部就是例子,二维码套在牲畜身上,摩擦严重,污染严重,采集的图像随意性非常大。物流二维码类似。 复杂环境下的二维码识别算法异常复杂,需要建立非常多的数学模型,而不是简单的套用代码。libdmtx是一款非常不错的开源二维码识别库,写得也不错,但是识别率和识别时间还远远不能满足复杂环境的二维码识别。 通过几个月的调 阅读全文
posted @ 2010-08-31 12:34 physoft 阅读(3163) 评论(2) 推荐(0) 编辑
摘要: Ogre使用非常广泛,国内外都有不少使用者,包括国内的天龙八部。Ogre功能强大,但始终是个底层3D渲染引擎,开发成熟的产品还需要大量的工作。我将3D Visualization的应用分为两大类:1. 虚拟世界类:如虚拟的城市建筑,公园游览,网络3D展会等。场景不会非常大。主要是用户浏览和获取信息。2. 编辑器类:如场景编辑器,装修软件,船舶制造,汽车有限元分析,物理引擎编辑器等。场景只集中在较小的区域内,用户可以从任意视角观察,只要以对物体实施操作,产生改变,再反馈到其他系统或者现实世界中去。基于这个分类,我使用Ogre, Physoft Dev SDK, Physoft 3D framew 阅读全文
posted @ 2010-08-01 17:11 physoft 阅读(981) 评论(1) 推荐(0) 编辑