安装python模块 ,命令行使用pip
先升级pip:
C:\Python27> python -m pip install --upgrade pip
再安装包
C:\Python27> python -m pip install js2py
-------------------------------
因为没有把pip加入环境变量,so 进入pip对应路径:
C:\Python27\Scripts>pip install pytesseract
如果pip版本太弱了,升级pip
pip show pip
C:\Python27\Scripts>pip install --user --upgrade pip
或者用:python -m pip install --upgrade pip -i https://pypi.douban.com/simple
-------------------------------------------------------------------------------
- 打开cmd
- 到达安装目录
- python setup.py build
- python setup.py install
cd C:\Python27\Scripts\tesseract-ocr-0.0.1
pip install pytesseract
pip install --index-url http://pypi.douban.com/simple/ tesseract-ocr
==============================Tesseract-OCR 和 pytesseract 模块安装=======================
语言包下载地址:
3.04版本:https://github.com/tesseract-ocr/tessdata/tree/3.04.00
4.0版本:https://github.com/tesseract-ocr/tessdata
下载中文 chi_sim.traineddata 和 chi_tra.traineddata
一、环境变量配置
1.系统变量Path
D:\Program Files\Tesseract-OCR
2.系统自定义变量:TESSDATA_PREFIX
D:\Program Files\Tesseract-OCR\tessdata
测试:
【语法】: tesseract imagename outputbase [-l lang] [-psm pagesegmode] [configfile…]
imagename为目标图片文件名,需加格式后缀;outputbase是转换结果文件名;lang是语言名称(在Tesseract-OCR中tessdata文件夹可看到以eng开头的语言文件eng.traineddata),如不标-l eng则默认为eng。
tesseract --help
tesseract 1.jpg log -l eng (识别英文测试,默认)
tesseract 1.jpg log -l chi_sim(识别中文测试)
二、编辑:C:\Python27\Lib\site-packages\pytesseract\pytesseract.py
32行:
# tesseract_cmd = 'tesseract'
tesseract_cmd = u'D:/Program Files/Tesseract-OCR/tesseract.exe'
2、Tesseract训练:
因为识别能力很有限,需要进行训练
大体流程为:安装jTessBoxEditor -> 获取样本文件 -> Merge样本文件 –> 生成BOX文件 -> 定义字符配置文件 -> 字符矫正 -> 执行批处理文件 -> 将生成的traineddata放入tessdata中
参考博客:
https://www.cnblogs.com/hupeng1234/p/7136442.html
https://blog.csdn.net/dcba2014/article/details/78969658
http://www.inimei.cn/archives/770.html
https://blog.csdn.net/guzhenping/article/details/80122947
https://www.cnblogs.com/cnlian/p/5765871.html
https://www.cnblogs.com/wzben/p/5930538.html
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· AI与.NET技术实操系列(二):开始使用ML.NET
· 无需6万激活码!GitHub神秘组织3小时极速复刻Manus,手把手教你使用OpenManus搭建本
· C#/.NET/.NET Core优秀项目和框架2025年2月简报
· 什么是nginx的强缓存和协商缓存
· 一文读懂知识蒸馏
· Manus爆火,是硬核还是营销?