Python2.7利用Tesseract进行中英文图像识别
背景环境: win8.1 64位 python2.7.13
本以为会很简单,结果在配置环境这块上花了很多时间,踩了几个坑,最后自己看英文文档和log才解决问题。
打开网站
https://pypi.python.org/pypi/pytesseract
https://github.com/tesseract-ocr/tesseract/wiki
https://github.com/tesseract-ocr/tesseract/wiki/Downloads
http://www.pythonware.com/products/pil/
找到并下载安装tesseract-ocr-setup-4.00.00dev.exe文件 下载中文训练库chi_sim.traineddata
将安装文件路径 添加到环境变量中的PATH 和 Path中去 ,在系统变量中添加一个TESSDATA_PREFIX,变量值还是文件路径
我的是D:\programfiles\tesseract\Tesseract-OCR
打开cmd安装 pip install pytesseract
去C:\Python27\Lib\site-packages 下找到PIL卸载 然后 去下载 PIL-1.1.7.win32-py2.7.exe 并安装
# -*- coding: utf-8 -*- try: import Image except ImportError: from PIL import Image import pytesseract img = Image.open('test2.png') img.load() text = pytesseract.image_to_string(img, lang='chi_sim') print(text)
最后找张png的图放在和这个文件同目录下 完事了
几个坑:
:from . import VERSION, PILLOW_VERSION, _plugins ueError: Attempted relative
不知道什么鬼,后来直接把C:\Python27\Lib\site-packages\PIL 给删了 重新安装这个库
pytesseract.pytesseract.TesseractError: (1, u'Error opening data file D:\\programfiles\\tesseract\\Tesseract-OCR/chi_sim.traineddata')
这里需要将chi_sim.traineddata放在指定目录下,而不是 $path\tessdata\tessconfigs下
总结: 看官方教程 百度上搜索的太旧了 stackoverflow 也是
【推荐】还在用 ECharts 开发大屏?试试这款永久免费的开源 BI 工具!
【推荐】国内首个AI IDE,深度理解中文开发场景,立即下载体验Trae
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· .NET 原生驾驭 AI 新基建实战系列:向量数据库的应用与畅想
· 从问题排查到源码分析:ActiveMQ消费端频繁日志刷屏的秘密
· 一次Java后端服务间歇性响应慢的问题排查记录
· dotnet 源代码生成器分析器入门
· ASP.NET Core 模型验证消息的本地化新姿势
· ThreeJs-16智慧城市项目(重磅以及未来发展ai)
· .NET 原生驾驭 AI 新基建实战系列(一):向量数据库的应用与畅想
· Ai满嘴顺口溜,想考研?浪费我几个小时
· Browser-use 详细介绍&使用文档
· 软件产品开发中常见的10个问题及处理方法