数字、英文识别比较容易。中文识别主要存在两个问题:其一,有可能误识别。其二、需要随带几十兆的识别库(甚至更大)。
适合C#编程引用的中文ocr技术,查到以下两种:
1.使用开源的Tesseract做识别,中文识别率不太高,但可以自己训练识别器,需要随带30M左右的中文识别库。支持.net。
2.使用破解版的Asprise,但注意它不支持中文识别。
3.使用微软office带的modi组件,需要客户端安装这个组件,不太适合在客户端软件上使用,没有继续试下去。modi的识别率较高。支持.net。
4.使用OneNote的图片转文字(光学识别字符)。
参考资料:
http://www.cnblogs.com/brooks-dotnet/archive/2010/10/05/1844203.html
http://www.cnblogs.com/stone_w/archive/2011/10/08/2202397.html
http://www.cnblogs.com/baiboy/p/wpf1.html