图片转文字(错误解决)
使用过程中都是错误,不是找不到训练数据,就是路径不对,还好最终解决
不用爬虫就可以图片转换文字了,爽~
下面是步骤,一步一步来就行了,规避了错误的发生
1、如果是几张图片可以在线转
https://ocr.wdku.net/(这种在线的很多,也可以自己找)
2、如果是很多,可以用程序批量转
软件环境:python3.5,pycharm
安装 pytesseract,Pillow 可以在pycharm上搜索安装
安装 tesseract-ocr
https://github.com/UB-Mannheim/tesseract/wiki
这是非官方下载包,下载并安装4.0: https://digi.bib.uni-mannheim.de/tesseract/tesseract-ocr-setup-4.0.0-alpha.20170804.exe
安装时注意勾选简体中文,默认安装,安装完毕后,敲命令(看看装的怎么样了,支持什么语言):
cd C:\Program Files (x86)\Tesseract-OCR
tesseract
tesseract -v
tesseract --list-langs #查看Tesseract-OCR支持语言
3、改文件:
C:\Python3\Lib\site-packages\pytesseract\pytesseract.py,找到这两行:
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY tesseract_cmd = 'tesseract'
改为这样:
# CHANGE THIS IF TESSERACT IS NOT IN YOUR PATH, OR IS NAMED DIFFERENTLY #tesseract_cmd = 'tesseract' tesseract_cmd = 'C:/Program Files (x86)/Tesseract-OCR/tesseract.exe'
4、配置环境变量(根据你的安装目录来)
path 中加入 C:\Program Files (x86)\Tesseract-OCR
再建一个 TESSDATA_PREFIX 变量值是 C:\Program Files (x86)\Tesseract-OCR\tessdata
5、重启pycharm(很重要)
6、测试
from PIL import Image import pytesseract text = pytesseract.image_to_string(Image.open('ci.png'), lang='chi_sim') print(text)
参考:
https://www.cnblogs.com/qq21270/p/7704952.html
https://blog.csdn.net/qq_14998713/article/details/78824859
https://blog.csdn.net/weixin_42183288/article/details/81327028
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 基于Microsoft.Extensions.AI核心库实现RAG应用
· Linux系列:如何用heaptrack跟踪.NET程序的非托管内存泄露
· 开发者必知的日志记录最佳实践
· SQL Server 2025 AI相关能力初探
· Linux系列:如何用 C#调用 C方法造成内存泄露
· Manus爆火,是硬核还是营销?
· 终于写完轮子一部分:tcp代理 了,记录一下
· 别再用vector<bool>了!Google高级工程师:这可能是STL最大的设计失误
· 单元测试从入门到精通
· 震惊!C++程序真的从main开始吗?99%的程序员都答错了