OCR学习之一：OCR简介

1.什么是OCR？

OCR （Optical Character Recognition，光学字符识别）是指电子设备（例如扫描仪或数码相机）检查纸上打印的字符，通过检测暗、亮的模式确定其形状，然后用字符识别方法将形状翻译成计算机文字的过程；即，对文本资料进行扫描，然后对图像文件进行分析处理，获取文字及版面信息的过程。如何除错或利用辅助信息提高识别正确率，是OCR最重要的课题，ICR（Intelligent Character Recognition）的名词也因此而产生。衡量一个OCR系统性能好坏的主要指标有：拒识率、误识率、识别速度、用户界面的友好性，产品的稳定性，易用性及可行性等。

2.OCR典型应用有哪些？

全文识别：创建可检索文档

当文档以图像，传真或者扫描文档形式存在时，是不容易进行搜索的。OCR可将文本图像转换成实际可搜索的文本。Google Desktop 和Windows Desktop Search可为这些带有OCR识别的PDF文件和XPS文件编索引，使你通过常规的文本搜索找到所需文件。

区域识别：表格填报

在日常工作和生活中，保单，纳税申报，发票和支票等都会涉及到表单。如何使表单处理轻松而快速呢？绝大多数表单处理解决方案都是通过OCR来收集打印数据，ICR 来收集手写数据，OMR来检测所填数据。结构化的表单处理通常采用分区OCR和ICR。

3.OCR识别率取决于哪些因素？

1.扫描分辨率：不求最“高”，只求最“佳”。根据经验，五号印刷体采用250～300dpi比较合适；字号比较大(四号以上)，用150～200dpi就足够了；

2.对比度：为了达到最佳的识别效果，对输入稿件在扫描时的要求是清晰，使扫描文件黑白分明，有利于软件的识别；

3.偏斜程度：现在的OCR大都采用字模识别的方式，因此图像如果有一定程度的倾斜，就会严重影响识别效果，一方面需要尽量摆正扫描文件，另一方面还需要使用软件进行偏斜校正；

4.图片模式：一般对彩色模式识别很差，黑白模式（Line/art）的图片识别较好；

5.字体：印刷体识别率高，手写体识别率很低，需要人工校正；

4.OCR开源项目

1.OCRE, OCR Easy, http://lem.eui.upm.es/ocre.html

2.Clara OCR, http://directory.fsf.org/claraocr.html

3.Ocrad, based on a feature extraction, http://directory.fsf.org/ocrad.html

4.GOCR, http://sourceforge.net/projects/jocr

5.OCRchie: Modular Optical Character Recognition Software, http://http.cs.berkeley.edu/~fateman/kathey/ocrchie.html

6.Tesseract, http://code.google.com/p/tesseract-ocr/

5.一些OCR工具

1.gscan2pdf：

posted on 2013-12-12 22:21 Angelo Lee 阅读(2908) 评论(1) 收藏举报