python Tesseract 图片识别文字

1、介绍

tesseract模块,是python的第三方模块,可以用于图片的文字识别。

tesseract是谷歌的一个对图片进行识别的开源框架,免费使用

2、windows安装

(1)访问github,下载

Home · UB-Mannheim/tesseract Wiki · GitHub

(2)安装

默认安装目录C:\Program Files\Tesseract-OCR

(3)配置环境变量

(4)检查安装是否成功

tesseract -v
  • 我这里测试失败,但是并不影响后续的操作和使用

(5)pycharm

import pytesseract
from PIL import Image
# 读取图片
im = Image.open('img.png')
# 识别文字
string = pytesseract.image_to_string(im)
print(string)
  • 安装对应模块
  • 准备好对应的图片文件
  • venv/Lib/pytesseract目录下,编辑pytesseract.py文件中的tesseract_cmd变量

执行成功

(6)中文

默认支持的是english,对于其它语言并不进行解析,相当于一般像素。

也可以支持中文,但需要另外下载语言库。官方的,由于网络问题访问比较麻烦,暂时不处理。

http://code.google.com/p/tesseract-ocr/downloads/detail?name=chi_sim.traineddata.gz&can=2&q=

posted @   挖洞404  阅读(140)  评论(0编辑  收藏  举报
相关博文:
阅读排行:
· 微软正式发布.NET 10 Preview 1:开启下一代开发框架新篇章
· 没有源码,如何修改代码逻辑?
· PowerShell开发游戏 · 打蜜蜂
· 在鹅厂做java开发是什么体验
· WPF到Web的无缝过渡:英雄联盟客户端的OpenSilver迁移实战
点击右上角即可分享
微信分享提示