Tesseract-OCR 识别

安装过程可以看这篇

Tesseract-OCR 4.0之后貌似识别精度上了一个台阶，有个软件jTessBoxEditorFX可以提高Tesseract-OCR 识别精度，但是我目前发现，在没有训练的情况下，Tesseract-OCR 4.0识别的数字的准确率已经很的高了。

然后github上提供的最新tessdata也只支持4.0以上的版本。

这次试试，识别汉字，其实在安装的时候，你就可以选择很多语言的识别，但是安装的是我这边报错，说下载chi_sim失败，这个就是识别中文的tessdata，我们可以去github下载 tessdata。

然后拷贝到安装路径：Tesseract-OCR\tessdata 下面：

然后输入命令：

tesseract E:\test\汉字4.png E:\test\hz.txt -l chi_sim

第一个参数是图片，第二参数是输出到文本 -l 指定语言（chi_sim）及简体中文。

（如果是识别数字和字符，就不用 -l 指定语言）

最后测试发现，如果中文是挨着的，它基本就都识别错了，但是如果汉字是隔开的，识别就都是对的。

资源下载：

posted @ 2022-04-25 16:15 宋桓公阅读(291) 评论(0) 收藏举报

刷新页面返回顶部