python 文字识别 之 pytesseract

 

pytesseract资源

链接:https://pan.baidu.com/s/1eTsqhsY 密码:j0yo

 安装时前面一直next就可以了,直到这一步,勾选Math和Chinese,支持计算和中文

要记住安装的目录

我的是 F:\Program Files (x86)\Tesseract-OCR

 然后,

在系统变量中添加一个TESSDATA_PREFIX,变量值还是文件路径
我的是F:\Program Files (x86)\Tesseract-OCR

 

打开Python安装路径:\Python36\Lib\site-packages\pytesseract\pytesseract.py,把路径改为自己的安装路径

 

 运行下面代码

1
2
3
4
5
6
from PIL import Image
import pytesseract
 
img = Image.open('aaa.png')
text = pytesseract.image_to_string(img,lang='chi_sim')
print (text)

  

 图片:1.png

运行结果

 

结果会有一点出入,需要对现有模型进行训练才能提高匹配度

chi_sim.traineddata是中文对应的模型,后面会学习对模型的训练,提供匹配度

 

关于安装pytesseract的一些链接:

http://blog.csdn.net/cjvs9k/article/details/79044548

http://blog.csdn.net/qiushi_1990/article/details/78041375

http://blog.csdn.net/ztzy520/article/details/53946327

https://www.cnblogs.com/chenbjin/p/4147564.html

posted @   程序生(Codey)  阅读(5092)  评论(0编辑  收藏  举报
编辑推荐:
· AI与.NET技术实操系列:基于图像分类模型对图像进行分类
· go语言实现终端里的倒计时
· 如何编写易于单元测试的代码
· 10年+ .NET Coder 心语,封装的思维:从隐藏、稳定开始理解其本质意义
· .NET Core 中如何实现缓存的预热?
阅读排行:
· 25岁的心里话
· 闲置电脑爆改个人服务器(超详细) #公网映射 #Vmware虚拟网络编辑器
· 零经验选手,Compose 一天开发一款小游戏!
· 通过 API 将Deepseek响应流式内容输出到前端
· 因为Apifox不支持离线,我果断选择了Apipost!
点击右上角即可分享
微信分享提示