Tesseract-OCR 识别

安装过程可以看这篇

【转】Tesseract-OCR 字符识别_code bean的博客-CSDN博客

Tesseract-OCR 4.0之后貌似识别精度上了一个台阶,有个软件jTessBoxEditorFX可以提高Tesseract-OCR 识别精度,但是我目前发现,在没有训练的情况下,Tesseract-OCR 4.0识别的数字的准确率已经很的高了。

然后github上提供的最新tessdata也只支持4.0以上的版本。

tesseract-ocr/tessdata: Trained models with support for legacy and LSTM OCR engine (github.com)https://github.com/tesseract-ocr/tessdata

这次试试,识别汉字,其实在安装的时候,你就可以选择很多语言的识别,但是安装的是我这边报错,说下载chi_sim失败 ,这个就是识别中文的tessdata,我们可以去github下载 tessdata。

然后拷贝到安装路径:Tesseract-OCR\tessdata 下面:

 然后输入命令:

tesseract   E:\test\汉字4.png    E:\test\hz.txt    -l    chi_sim

第一个参数是图片,第二参数是输出到文本     -l 指定语言 (chi_sim)   及简体中文。

(如果是识别数字和字符,就不用 -l 指定语言)

 最后测试发现,如果中文是挨着的,它基本就都识别错了,但是如果汉字是隔开的,识别就都是对的。

资源下载:

tesseract-ocr-setup-4.00.00dev+tessdata+jTessBoxEditorFX-2.2-图像识别文档类资源-CSDN文库icon-default.png?t=M3K6https://download.csdn.net/download/songhuangong123/85219836

posted @ 2022-04-25 16:15  宋桓公  阅读(170)  评论(0编辑  收藏  举报