physoft - 博客园

2012年2月6日

摘要： OCR图像一般有两种：有格式的近距离图像或者扫描件，如身份证，名片，人民币、美元；无格式的图像，如使用Tesseract OCR 提取复杂图像中的文字。最近有格式的近距离图像识别项目比较多，因此积累了一套版式分析(Layout Analysis)的算法，快速、可抗强干扰（光线、阴影）和噪音（污染、遮挡、背景）。特别适合证件，钱币等格式比较固定，内容较少但字比较分散的图像OCR。阅读全文

posted @ 2012-02-06 14:40 physoft 阅读(2129) 评论(3) 推荐(1)

2011年9月19日

使用Tesseract OCR 提取美元序列号

摘要： Tesseract OCR 提取美元序列号阅读全文

posted @ 2011-09-19 13:16 physoft 阅读(2193) 评论(0) 推荐(1)

2011年7月19日

Tesseract OCR 性能提升

摘要：前面提到了如何使用Tesseract OCR 从复杂图像中提取文字，关键在于将图像分割，局部二值化后传给Tesseract识别，如从下图中提取每个物品的数量：方法是先使用几何特征和颜色特征将物品分割为小的局域，再将每个区域二值化。这样，每个局域就对应一个子图，传给Tesseract。但是Tesseract识别一个图像速度还行，如果识别10个，20个，速度就很慢了。识别一个如上图( 400*600)的图像需要 10秒以上！！！这显然是太慢了。其实Tesseract 识别速度和子图的数目成正比，和图像的大小倒是没什么关系，也就是识别100*100的图和识别1024*1024的图，时间差不多太多。阅读全文

posted @ 2011-07-19 14:02 physoft 阅读(7063) 评论(3) 推荐(0)

2011年7月15日

使用Tesseract OCR 提取复杂图像中的文字

摘要： TesseractOCR 文字识别库识别率还是非常高的，但是前提是图像背景简单，如果有复杂的背景，识别率几乎为0.下面介绍从具有复杂背景图像中应用 Tesseract OCR提取文字的关键技巧。以我做的提取运动员号码的项目为例。测试图例：更多测试图例，请访问http://www.physoft.net/?p=5541. 前处理。前处理主要完成两个任务： a. 定位：根据目标图像的特征定位目标的区域。如图例，需要定位每个运动员数字标签的标签区域。Tesseract 对以文字为主体的图像识别率还是非常不错的。所以我们需要将定位到的区域抠出来做后面的处理，再给Tesseract 识别。定位是非常困阅读全文

posted @ 2011-07-15 14:45 physoft 阅读(6132) 评论(0) 推荐(1)

2010年8月31日

复杂环境下的二维码快速识别（农业部二维码）

摘要：最近竞标了农业部二维码的识别，感觉开发出来的二维码识别率还非常不错，速度也很快，这里分享下。二维码已经开始普及起来。15-20年前设计的QR码和DM码仍然是主流码。国内也有不少码制出现，但其实详细看，也是换汤不换药，适应性还是很差。差的原因是很难适应复杂环境，比如自然环境下的二维码。农业部就是例子，二维码套在牲畜身上，摩擦严重，污染严重，采集的图像随意性非常大。物流二维码类似。复杂环境下的二维码识别算法异常复杂，需要建立非常多的数学模型，而不是简单的套用代码。libdmtx是一款非常不错的开源二维码识别库，写得也不错，但是识别率和识别时间还远远不能满足复杂环境的二维码识别。通过几个月的调阅读全文

posted @ 2010-08-31 12:34 physoft 阅读(3234) 评论(2) 推荐(0)

2010年8月1日

基于Ogre引擎的3D Visualization

摘要： Ogre使用非常广泛，国内外都有不少使用者，包括国内的天龙八部。Ogre功能强大，但始终是个底层3D渲染引擎，开发成熟的产品还需要大量的工作。我将3D Visualization的应用分为两大类：1. 虚拟世界类：如虚拟的城市建筑，公园游览，网络3D展会等。场景不会非常大。主要是用户浏览和获取信息。2. 编辑器类：如场景编辑器，装修软件，船舶制造，汽车有限元分析，物理引擎编辑器等。场景只集中在较小的区域内，用户可以从任意视角观察，只要以对物体实施操作，产生改变，再反馈到其他系统或者现实世界中去。基于这个分类，我使用Ogre, Physoft Dev SDK, Physoft 3D framew 阅读全文

posted @ 2010-08-01 17:11 physoft 阅读(1020) 评论(1) 推荐(0)

公告