python-识别图片中的文字
1、下载:https://digi.bib.uni-mannheim.de/tesseract/
我们之所以要应用Tesseract,是因为他是一个开源的OCR(光学字符识别)引擎,它可以从各种图像中提取文本信息。
它具有以下作用:
- 从扫描或拍摄的图像中提取文本:Tesseract可以从这些非结构化的图像中识别和提取文本,这些图像可以包括文档、照片、屏幕截图等。
- 支持多种语言:Tesseract支持超过100种语言,这使得它能够适应各种不同的场景和需求。
2、请注意安装的时候一定要选择Additioinal language data,否则可能无法识别中文
安装的时候语言包还是十分重要滴!默认只能识别英文
3、配置环境变量(不在cmd中使用 可以不配)
变量名:TESSDATA_PREFIX
变量值:E:\installDir\tesseract-ocr\tessdata
cmd 打开输入: tesseract -v
python中安装: pip install pytesseract #如无法安装需要开启魔法
简单的识别图片中的文字
import pytesseract
from PIL import Image
pytesseract.pytesseract.tesseract_cmd = r'E:\installDir\tesseract-ocr\tesseract.exe'
# text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='eng')#英文
text=pytesseract.image_to_string(Image.open('img\img_1.png'),lang='chi_sim')#中文识别
print(text)