每天进步一点点-Tesseract 文字识别

Tesseract 文字识别

是github上的开源文字识别软件

前提条件:

1 在上面的地址下载安装tesseract

2 添加安装路径到windows环境变量

3 下载自己需要的语言库(官方已经训练好)到tessdata目录下

Path

Chi

简单使用:

简单使用:

tesseract [imagepath] [outputPath] -l [Language] [optional]

例如:tesseract C:\Users\ZR644\Desktop\tesseract-ocr\myscan.png C:\Users\ZR644\Desktop\tesseract-ocr\out -l chi_sim --psm 7

其中:

1 outputPath输出是不需要加后缀的,只是文件名称,这点有点奇怪

2 output格式是用utf8,有点编码起默认是别的,造成识别失败的假象

3 一开始识别不出不要紧,请按照图片调整参数

4 有一个图片文本占得很满,查了资料说图片要有一圈留白,仅供参考.

5 更多命令请参考本文一开始给出的命令语法页面

c#调用

在Nuget上有封装的tessercat,但是看了一下他的最新版本是用于tesseract-ocr 3.05.02的.NET包装器,而目前最新的版本都4多了,所以不打算用了.

像上面一样通过命令行的方式进行调用,然后读取out.txt文件识别的内容就好了.

简单例子:

做了一个不同psm参数识别同一张图片的具体对比:

sample

下载地址:https://github.com/tiancai4652/IdentifyImageByTesseract

使用前请先安装好,设置好环境变量,下载语言包到其目录下

posted @   猝不及防  阅读(4556)  评论(0编辑  收藏  举报
编辑推荐:
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
阅读排行:
· winform 绘制太阳,地球,月球 运作规律
· AI与.NET技术实操系列(五):向量存储与相似性搜索在 .NET 中的实现
· 超详细:普通电脑也行Windows部署deepseek R1训练数据并当服务器共享给他人
· 【硬核科普】Trae如何「偷看」你的代码?零基础破解AI编程运行原理
· 上周热点回顾(3.3-3.9)
点击右上角即可分享
微信分享提示