常用的几种OCR方法/组件小结(C#)

Posted on 2015-01-26 23:06 SAL 阅读(1691) 评论(0) 收藏举报

数字、英文识别比较容易。中文识别主要存在两个问题：其一，有可能误识别。其二、需要随带几十兆的识别库（甚至更大）。

适合C#编程引用的中文ocr技术，查到以下两种：

1.使用开源的Tesseract做识别，中文识别率不太高，但可以自己训练识别器，需要随带30M左右的中文识别库。支持.net。

2.使用破解版的Asprise，但注意它不支持中文识别。

3.使用微软office带的modi组件，需要客户端安装这个组件，不太适合在客户端软件上使用，没有继续试下去。modi的识别率较高。支持.net。

4.使用OneNote的图片转文字(光学识别字符)。

参考资料：

http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html

http://www.cnblogs.com/stone_w/archive/2011/10/08/2202397.html

http://www.cnblogs.com/baiboy/p/wpf1.html

刷新页面返回顶部

SAL