Tesseract OCR V5.0安装教程(Windows)
Tesseract,一款由HP实验室开发由Google维护的开源OCR(Optical Character Recognition , 光学字符识别)引擎,与Microsoft Office Document Imaging(MODI)相比,我们可以不断的训练的库,使图像转换文本的能力不断增强;如果团队深度需要,还可以以它为模板,开发出符合自身需求的OCR引擎。
1、 下载地址在本文章顶部,注意尽量不要下载带dev,alpha,beta等版本,这些版本不稳定,也可能是测试版本。建议下载最新稳定版本: tesseract-ocr-w64-setup-v5.0.0.20190623.exe。
2、 安装过程可以附带选择要安装的语言包,如下简体中文,之后自动会从服务器下载该语言包下来。(这里不建议勾选下载语言包,因为速度太慢了,教程后面会介绍怎么拓展语言包。如果有开梯子的话,请忽略括号内这段话)
勾选要拓展的语言包
勾选要拓展的语言包
3、 设置环境变量
添加环境变量
添加环境变量
4、检查查看是否安装成功
命令行窗口检查是否安装完成
命令行窗口检查是否安装完成
在文章顶部找到语言包地址的链接,下载需要的的语言包,如下图,红框内为中文简体语言包,下载后将该包直接放在程序安装目录的tessdata文件夹里面即可。
中文简体包
中文简体包
命令行使用 tesseract --list-langs命令可查看当前软件支持的语言:
查看支持语言
查看支持语言
测试图
测试图
识别效果
识别效果
识别效果一般,但是有Tesseract优点,那就是语言包可以进行训练,建议先训练再使用会好一点。
如果运行后出现下面提示,找不到tesseract路径:
解决方案有两种:
1、 将tesseract安装目录添加至电脑的环境变量。
2、 在代码中指定tesseract的路径
转:https://www.jianshu.com/p/f7cb0b3f337a
参考:
https://blog.csdn.net/qq_38628046/article/details/129062682
https://blog.csdn.net/weixin_43343621/article/details/142906906
浙公网安备 33010602011771号