python Tesseract 图片识别文字
1、介绍
tesseract模块,是python的第三方模块,可以用于图片的文字识别。
tesseract是谷歌的一个对图片进行识别的开源框架,免费使用
2、windows安装
(1)访问github,下载
Home · UB-Mannheim/tesseract Wiki · GitHub
(2)安装
默认安装目录C:\Program Files\Tesseract-OCR
(3)配置环境变量
(4)检查安装是否成功
tesseract -v
- 我这里测试失败,但是并不影响后续的操作和使用
(5)pycharm
import pytesseract
from PIL import Image
# 读取图片
im = Image.open('img.png')
# 识别文字
string = pytesseract.image_to_string(im)
print(string)
- 安装对应模块
- 准备好对应的图片文件
- venv/Lib/pytesseract目录下,编辑pytesseract.py文件中的tesseract_cmd变量
执行成功
(6)中文
默认支持的是english,对于其它语言并不进行解析,相当于一般像素。
也可以支持中文,但需要另外下载语言库。官方的,由于网络问题访问比较麻烦,暂时不处理。
http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=
【推荐】编程新体验,更懂你的AI,立即体验豆包MarsCode编程助手
【推荐】凌霞软件回馈社区,博客园 & 1Panel & Halo 联合会员上线
【推荐】抖音旗下AI助手豆包,你的智能百科全书,全免费不限次数
【推荐】博客园社区专享云产品让利特惠,阿里云新客6.5折上折
【推荐】轻量又高性能的 SSH 工具 IShell:AI 加持,快人一步
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战