Tesseract-OCR 识别
安装过程可以看这篇
【转】Tesseract-OCR 字符识别_code bean的博客-CSDN博客
Tesseract-OCR 4.0之后貌似识别精度上了一个台阶,有个软件jTessBoxEditorFX可以提高Tesseract-OCR 识别精度,但是我目前发现,在没有训练的情况下,Tesseract-OCR 4.0识别的数字的准确率已经很的高了。
然后github上提供的最新tessdata也只支持4.0以上的版本。
这次试试,识别汉字,其实在安装的时候,你就可以选择很多语言的识别,但是安装的是我这边报错,说下载chi_sim失败 ,这个就是识别中文的tessdata,我们可以去github下载 tessdata。
然后拷贝到安装路径:Tesseract-OCR\tessdata 下面:
然后输入命令:
tesseract E:\test\汉字4.png E:\test\hz.txt -l chi_sim
第一个参数是图片,第二参数是输出到文本 -l 指定语言 (chi_sim) 及简体中文。
(如果是识别数字和字符,就不用 -l 指定语言)
最后测试发现,如果中文是挨着的,它基本就都识别错了,但是如果汉字是隔开的,识别就都是对的。
资源下载:
作者:宋桓公
出处:http://www.cnblogs.com/douzi2/
如果您觉得阅读本文对您有帮助,请点一下“推荐”按钮,您的“推荐”将是我最大的写作动力!欢迎各位转载,但是未经作者本人同意,转载文章之后必须在文章页面明显位置给出作者和原文连接,否则保留追究法律责任的权利。