OCR 图片文字识别-tesseract
tesseract安装软件下载:
https://digi.bib.uni-mannheim.de/tesseract/
语言包:
https://tesseract-ocr.github.io/tessdoc/Data-Files
开启翻越模式,才能点击链接直接下载。
chi_sim | Chinese - Simplified | chi_sim.traineddata |
chi_tra | Chinese - Traditional | chi_tra.traineddata |
Tesseract 提供了三种训练数据:
训练数据 | 训练模型 | 识别速度 | 正确率 |
---|---|---|---|
tessdata_fast | LSTM | 最快 | 最低 |
tessdata_best | LSTM | 最慢 | 最高 |
tessdata | Legacy + LSTM | 中等 | 略低于tesdata -best |
traineddata训练数据安装在testdata下面,比如我是安装在D盘的。
D:\Program Files\Tesseract-OCR\tessdata
把default旧的小文件备份一下,把刚下载的traineddata复制过来。
-------------
后来电脑重新安装了,安装在了C盘
C:\Program Files\Tesseract-OCR
高级系统设置:
ref Python+pytesseract+Tesseract-OCR图片文字识别(只适合新手)_zhangshaohua1603的博客-CSDN博客_python tesseract-ocr
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 从 HTTP 原因短语缺失研究 HTTP/2 和 HTTP/3 的设计差异
· AI与.NET技术实操系列:向量存储与相似性搜索在 .NET 中的实现
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· TypeScript + Deepseek 打造卜卦网站:技术与玄学的结合
· Manus的开源复刻OpenManus初探
· AI 智能体引爆开源社区「GitHub 热点速览」
· 从HTTP原因短语缺失研究HTTP/2和HTTP/3的设计差异
· 三行代码完成国际化适配,妙~啊~
2020-06-15 【已解决】Kettle新建数据库连接报错(Mysql,MS Sql Server)