Tesseract5.0 图像识别本地服务 一 【安装配置】

一:简介

OCR(Optical Character Recognition):光学字符识别,是指电子设备(例如扫描仪或数码相机)检查纸上打印的字符,通过检测暗、亮的模式确定其形状,然后用字符识别方法将形状翻译成计算机文字的过程。
Tesseract:开源的OCR识别引擎,初期Tesseract引擎由HP实验室研发,后来贡献给了开源软件业,后由Google进行改进、修改bug、优化,重新发布。
二:下载

    1、Windows版本Tesseract各版本下载,本教程用的版本是tesseract-ocr-w64-setup-v5.0.0.20190623(【注意】要3.0以上才支持中文)。
    项目github地址:Tesseract

    2、各版本对应字库要识别简体中文需要下载chi_sim.traindata字库(【注意】根据版本下载对应字库)。

    3、jTessBoxEditor官网下载,用来训练字库的,带FX的版本才支持中文。

    4、各位打不开链接的朋友,看这里:

    链接:https://pan.baidu.com/s/1ViyFSR9CjXVy8b7mQeTISQ
    提取码:m87b

 三:安装

这个就不截图了

安装完成后我们配置环境变量
四:配置环境变量

1、配置系统环境变量

tesseract-ocr-Home

C:\Program Files\Tesseract-OCR

path : 加上新配置的信息

;%tesseract-ocr-Home%

2、配置字库-后期JAVA API要使用

TESSDATA_PREFIX

C:\Program Files\Tesseract-OCR\tessdata

    备注:将下载好的字库放到Tesseract-OCR项目的tessdata文件夹里面。

五:验证安装的效果

    在cmd窗口输入tesseract -v,配置成功如下图:

 
六:识别-看看识别的效果

 

1、tesseract 图片名称 生成的结果文件的名称 字库

 例如我的图片识别就是:

tesseract test.png result -l eng

 1、执行命令:

2、原图片:

3、识别结果:

这一期就先这样了

原文链接:https://blog.csdn.net/yexiaomodemo/article/details/106794043

posted @   锐洋智能  阅读(495)  评论(0编辑  收藏  举报
编辑推荐:
· 探究高空视频全景AR技术的实现原理
· 理解Rust引用及其生命周期标识(上)
· 浏览器原生「磁吸」效果!Anchor Positioning 锚点定位神器解析
· 没有源码,如何修改代码逻辑?
· 一个奇形怪状的面试题:Bean中的CHM要不要加volatile?
阅读排行:
· Obsidian + DeepSeek:免费 AI 助力你的知识管理,让你的笔记飞起来!
· 分享4款.NET开源、免费、实用的商城系统
· 解决跨域问题的这6种方案,真香!
· 5. Nginx 负载均衡配置案例(附有详细截图说明++)
· Windows 提权-UAC 绕过
历史上的今天:
2014-04-03 Spring+Quartz实现文件中转站
点击右上角即可分享
微信分享提示