SAL

  博客园  :: 首页  :: 新随笔  :: 订阅 订阅  :: 管理

常用的几种OCR方法/组件小结(C#)

Posted on 2015-01-26 23:06  SAL  阅读(1644)  评论(0编辑  收藏  举报
数字、英文识别比较容易。中文识别主要存在两个问题:其一,有可能误识别。其二、需要随带几十兆的识别库(甚至更大)。
 
适合C#编程引用的中文ocr技术,查到以下两种:
 
1.使用开源的Tesseract做识别,中文识别率不太高,但可以自己训练识别器,需要随带30M左右的中文识别库。支持.net。
 
2.使用破解版的Asprise,但注意它不支持中文识别。
 
3.使用微软office带的modi组件,需要客户端安装这个组件,不太适合在客户端软件上使用,没有继续试下去。modi的识别率较高。支持.net。
 
4.使用OneNote的图片转文字(光学识别字符)。
 
 
参考资料:
http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html
http://www.cnblogs.com/stone_w/archive/2011/10/08/2202397.html
http://www.cnblogs.com/baiboy/p/wpf1.html