💡 有理想,但不妄想, 💭|

little小新

园龄:2年6个月粉丝:8关注:0

python-识别图片中的文字

1、下载:https://digi.bib.uni-mannheim.de/tesseract/

我们之所以要应用Tesseract,是因为他是一个开源的OCR(光学字符识别)引擎,它可以从各种图像中提取文本信息。
它具有以下作用:
- 从扫描或拍摄的图像中提取文本:Tesseract可以从这些非结构化的图像中识别和提取文本,这些图像可以包括文档、照片、屏幕截图等。
- 支持多种语言:Tesseract支持超过100种语言,这使得它能够适应各种不同的场景和需求。

2、请注意安装的时候一定要选择Additioinal language data,否则可能无法识别中文

安装的时候语言包还是十分重要滴!默认只能识别英文

3、配置环境变量(不在cmd中使用 可以不配)

变量名:TESSDATA_PREFIX

变量值:E:\installDir\tesseract-ocr\tessdata

cmd 打开输入: tesseract -v

python中安装: pip install pytesseract     #如无法安装需要开启魔法

简单的识别图片中的文字

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'E:\installDir\tesseract-ocr\tesseract.exe'
# text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='eng')#英文
text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='chi_sim')#中文识别
print(text)

 

本文作者:little小新

本文链接:https://www.cnblogs.com/littlecc/p/18242425

版权声明:本作品采用知识共享署名-非商业性使用-禁止演绎 2.5 中国大陆许可协议进行许可。

posted @   little小新  阅读(175)  评论(0编辑  收藏  举报
点击右上角即可分享
微信分享提示
评论
收藏
关注
推荐
深色
回顶
收起