python-识别图片中的文字

1、下载:https://digi.bib.uni-mannheim.de/tesseract/

我们之所以要应用Tesseract,是因为他是一个开源的OCR(光学字符识别)引擎,它可以从各种图像中提取文本信息。

它具有以下作用:
    - 从扫描或拍摄的图像中提取文本:Tesseract可以从这些非结构化的图像中识别和提取文本,这些图像可以包括文档、照片、屏幕截图等。
    - 支持多种语言:Tesseract支持超过100种语言,这使得它能够适应各种不同的场景和需求。

2、请注意安装的时候一定要选择Additioinal language data,否则可能无法识别中文

安装的时候语言包还是十分重要滴!默认只能识别英文

3、配置环境变量(不在cmd中使用 可以不配)

变量名:TESSDATA_PREFIX

变量值:E:\installDir\tesseract-ocr\tessdata

cmd 打开输入: tesseract -v

python中安装: pip install pytesseract     #如无法安装需要开启魔法

简单的识别图片中的文字

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'E:\installDir\tesseract-ocr\tesseract.exe'
# text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='eng')#英文
text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='chi_sim')#中文识别
print(text)

 

posted @ 2024-06-11 18:11  little小新  阅读(101)  评论(0编辑  收藏  举报