python-识别图片中的文字

1、下载：https://digi.bib.uni-mannheim.de/tesseract/

我们之所以要应用Tesseract，是因为他是一个开源的OCR（光学字符识别）引擎，它可以从各种图像中提取文本信息。

它具有以下作用：
    - 从扫描或拍摄的图像中提取文本：Tesseract可以从这些非结构化的图像中识别和提取文本，这些图像可以包括文档、照片、屏幕截图等。
    - 支持多种语言：Tesseract支持超过100种语言，这使得它能够适应各种不同的场景和需求。

2、请注意安装的时候一定要选择Additioinal language data,否则可能无法识别中文

安装的时候语言包还是十分重要滴！默认只能识别英文

3、配置环境变量（不在cmd中使用可以不配）

变量名：TESSDATA_PREFIX

变量值：E:\installDir\tesseract-ocr\tessdata

cmd 打开输入： tesseract -v

python中安装： pip install pytesseract #如无法安装需要开启魔法

简单的识别图片中的文字

import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'E:\installDir\tesseract-ocr\tesseract.exe'
# text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='eng')#英文
text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='chi_sim')#中文识别
print(text)

posted @ 2024-06-11 18:11 little小新阅读(254) 评论(0) 收藏举报

刷新页面返回顶部

littlecc

无限制的技术都要学

python-识别图片中的文字

公告